Han Simplified Alphabet OCR in C# and .NET
IronOCR는 .NET 프로그래머가 한자 간체를 포함하여 126개 언어로 이미지 및 PDF 문서에서 텍스트를 읽을 수 있게 하는 C# 소프트웨어 구성 요소입니다.
이는 .NET 개발자 전용으로 개발된 Tesseract의 고급 포크 버전으로, 속도와 정확도 면에서 다른 Tesseract 엔진보다 뛰어난 성능을 보여줍니다.
IronOcr.Languages.Han의 내용
이 패키지는 .NET을 위한 400가지 OCR 언어를 포함합니다:
- 간체한자
- 간체한자최상
- 간체한자빠른
- 간체세로한자
- 간체세로한자최상
- 간체세로한자빠른
- 전통한자
- 전통한자최상
- 전통한자빠른
- 전통세로한자
- 전통세로한자최상
- 전통세로한자빠른
다운로드
간체한자 언어 팩 [Samhan]
설치
첫 번째로 해야 할 일은 .NET 프로젝트에 간체한자 OCR 패키지를 설치하는 것입니다.
패키지 관리자 콘솔에서 다음 명령을 실행하십시오:
Install-Package IronOcr.Languages.Han
코드 예제
이 C# 코드 예제는 이미지 또는 PDF 문서에서 간체한자 텍스트를 읽습니다.
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Console.WriteLine(AllText);
}
}
}
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Console.WriteLine(AllText);
}
}
}
' Reference the IronOcr library
Imports IronOcr
Friend Class Program
Shared Sub Main()
' Create an IronTesseract OCR engine
Dim Ocr = New IronTesseract()
' Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han
' Using a 'using' statement for resource management
Using Input = New OcrInput("images\Han.png")
' Process the image to extract text
Dim Result = Ocr.Read(Input)
' Retrieve and display the extracted text
Dim AllText As String = Result.Text
System.Console.WriteLine(AllText)
End Using
End Sub
End Class
설명
- IronOcr 라이브러리를 참조하여 OCR 기능을 사용하기 시작합니다.
IronTesseract의 인스턴스가 생성되어 이미지/PDF 문서를 처리합니다.- OCR 프로세스를 위한 언어는
Ocr.Language를 사용하여Han로 설정됩니다. - 이미지는
OcrInput를 사용하여 로드되고Ocr.Read()를 호출하여 처리됩니다. - OCR 프로세스의 결과는 문서에서 추출된 텍스트를 포함하는
Result.Text에 저장됩니다. - 마지막으로 텍스트를 콘솔에 출력합니다.
적절한 using 지시문을 갖추고 파일 스트림과 같은 관리되지 않는 리소스를 다룰 때 특히 using문으로 리소스를 효율적으로 관리합니다.

