Han Simplified Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126개 언어 추가 지원

IronOCR는 .NET 프로그래머가 한자 간체를 포함하여 126개 언어로 이미지 및 PDF 문서에서 텍스트를 읽을 수 있게 하는 C# 소프트웨어 구성 요소입니다.

이는 .NET 개발자 전용으로 개발된 Tesseract의 고급 포크 버전으로, 속도와 정확도 면에서 다른 Tesseract 엔진보다 뛰어난 성능을 보여줍니다.

IronOcr.Languages.Han의 내용

이 패키지는 .NET을 위한 400가지 OCR 언어를 포함합니다:

  • 간체한자
  • 간체한자최상
  • 간체한자빠른
  • 간체세로한자
  • 간체세로한자최상
  • 간체세로한자빠른
  • 전통한자
  • 전통한자최상
  • 전통한자빠른
  • 전통세로한자
  • 전통세로한자최상
  • 전통세로한자빠른

다운로드

간체한자 언어 팩 [Samhan]

설치

첫 번째로 해야 할 일은 .NET 프로젝트에 간체한자 OCR 패키지를 설치하는 것입니다.

패키지 관리자 콘솔에서 다음 명령을 실행하십시오:

Install-Package IronOcr.Languages.Han

코드 예제

이 C# 코드 예제는 이미지 또는 PDF 문서에서 간체한자 텍스트를 읽습니다.

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
$vbLabelText   $csharpLabel

설명

  • IronOcr 라이브러리를 참조하여 OCR 기능을 사용하기 시작합니다.
  • IronTesseract의 인스턴스가 생성되어 이미지/PDF 문서를 처리합니다.
  • OCR 프로세스를 위한 언어는 Ocr.Language를 사용하여 Han로 설정됩니다.
  • 이미지는 OcrInput를 사용하여 로드되고 Ocr.Read()를 호출하여 처리됩니다.
  • OCR 프로세스의 결과는 문서에서 추출된 텍스트를 포함하는 Result.Text에 저장됩니다.
  • 마지막으로 텍스트를 콘솔에 출력합니다.

적절한 using 지시문을 갖추고 파일 스트림과 같은 관리되지 않는 리소스를 다룰 때 특히 using문으로 리소스를 효율적으로 관리합니다.