테서랙트 상세 구성

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

테서랙트 상세 구성

OCR에 있어서는 문서에서 텍스트를 추출하는 방식에 대한 다양한 옵션과 유연성이 필수적입니다. OCR 처리에는 비용이 많이 들기 때문에 특정 문서에 사용할 성능 및 방법을 제어할 수 있어야 OCR을 활용하는 애플리케이션의 확장성과 효율성을 보장할 수 있습니다.

IronTesseract는 개발자에게 다양한 속성과 옵션을 제공하여 사용자가 원하는 대로 조정할 수 있도록 합니다. 예를 들어 특정 문자를 차단 목록에 추가하거나 문서 내의 바코드를 읽거나 OCR 엔진이 페이지를 읽어 잠재적인 텍스트 블록을 스캔하는 방식을 지정하려는 경우, 이 모든 것과 그 이상의 기능을 IronTesseract 클래스를 통해 사용할 수 있습니다.

## IronOCR 과 Tesseract 5를 함께 사용하는 5단계 가이드

`var ocrTesseract = new IronTesseract();`
`ocrTesseract.Language = OcrLanguage.EnglishBest;`
`ocrTesseract.Configuration.ReadBarCodes = false;`
`ocrTesseract.Configuration.BlackListCharacters = "`ë|^";`
`ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;`

IronTesseract 클래스를 초기화한 후에는 수정하고 싶은 몇 가지 중요한 옵션이 즉시 제공됩니다. 먼저 설정해야 할 속성은 Language입니다. 기본 언어는 영어입니다. 하지만 IronTesseract는 최대 125개 언어를 지원하며 UseMultipleLanguages 메서드를 사용하면 여러 언어를 사용할 수도 있습니다. 더 자세한 내용은 여기 를 참조하세요.

두 번째로 설정하려는 속성은 TesseractConfiguration 클래스입니다. 이 클래스를 사용하면 Tesseract 엔진이 문서에서 잠재적인 텍스트 블록을 검색하는 방식을 수정할 수 있습니다.

먼저, 테서랙트 엔진의 언어를 OcrLanguage.EnglishBest로 지정하여 수정합니다. 이 변형은 OCR을 사용하는 형태 인식 전략인 LSTM과 OEM을 결합한 것입니다. 이 두 가지 전략을 결합하면 OCR이 더욱 정확한 결과를 도출할 수 있습니다.
그 후, OCR 처리 과정에서 바코드를 읽지 않도록 ReadBarCodes를 false로 설정했습니다.

또한 문서에서 특정 문자를 블랙리스트에 추가하여 추출하고자 하는 문자를 더욱 구체적으로 지정하고 맞춤 설정합니다. 이 예시에서는 백틱, 악센트 기호 또는 캐럿 기호가 포함된 텍스트를 추출하지 않도록 문자를 블랙리스트에 추가합니다. 마지막으로, 병렬 처리를 당분간 비활성화하기 위해 TesseractVariables["tessedit_parallelize"]를 false로 설정했습니다. 마지막 기능은 테서랙트 엔진과 직접적으로 연동되는 매우 강력한 기능입니다. 개발자가 OCR을 수행할 때 테서랙트 엔진의 동작을 더욱 세밀하게 사용자 지정할 수 있도록 하는 TesseractVariables의 전체 목록은 다음 과 같습니다.

IronTesseract의 다양한 구성 옵션을 살펴보세요