테서랙트 상세 구성

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

테서랙트 상세 구성

OCR에 있어서는 문서에서 텍스트를 추출하는 방식에 대한 다양한 옵션과 유연성이 필수적입니다. OCR 처리에는 비용이 많이 들기 때문에 특정 문서에 사용할 성능 및 방법을 제어할 수 있어야 OCR을 활용하는 애플리케이션의 확장성과 효율성을 보장할 수 있습니다.

IronTesseract은 개발자가 다양한 속성과 옵션을 탐험할 수 있도록 합니다. 예를 들어, 특정 문자를 블랙리스트에 추가하거나 문서 내 바코드를 읽거나, 페이지의 OCR 엔진이 잠재적 텍스트 블록을 탐색하는 방식을 제어하려는 경우, IronTesseract 클래스와 함께 모든 것이 가능합니다.

Tesseract 5와 함께 IronOCR를 사용하는 5단계 가이드

var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë|^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;

IronTesseract 클래스를 시작한 후, 즉시 수정할 수 있는 몇 가지 중요한 옵션이 있습니다. 구성할 첫 번째 속성은 Language입니다. 기본 언어는 영어입니다. 하지만 IronTesseract는 최대 125개의 언어를 지원하며 심지어 UseMultipleLanguages 메서드를 통해 여러 언어도 허용합니다. 더 자세한 내용은 여기 를 참조하세요.

두 번째로 구성하고자 하는 속성은 TesseractConfiguration 클래스입니다. 이 클래스를 사용하면 Tesseract 엔진이 문서에서 잠재적인 텍스트 블록을 검색하는 방식을 수정할 수 있습니다.

우선, Tesseract 엔진의 언어를 OcrLanguage.EnglishBest에 할당하여 수정합니다. 이 변형은 OCR을 사용하는 형태 인식 전략인 LSTM와 OEM을 결합합니다; 이 두 가지 전략을 결합하면 OCR이 더욱 정확한 결과를 도출할 수 있습니다. 그 후, ReadBarCodes를 false로 설정하여 OCR 과정에서 바코드를 읽는 것을 피합니다.

또한 문서에서 특정 문자를 블랙리스트에 추가하여 추출하고자 하는 문자를 더욱 구체적으로 지정하고 맞춤 설정합니다. 이 예시에서는 백틱, 악센트 기호 또는 캐럿 기호가 포함된 텍스트를 추출하지 않도록 문자를 블랙리스트에 추가합니다. 마지막으로 TesseractVariables["tessedit_parallelize"]를 false로 설정하여 병렬 처리를 일시적으로 비활성화합니다. 여기에서 OCR 수행 시 Tesseract 엔진의 동작을 더욱 사용자 정의할 수 있는 TesseractVariables의 전체 목록을 볼 수 있습니다.

IronTesseract의 다양한 구성 옵션을 살펴보세요