테서랙트 상세 구성
OCR에 있어서는 문서에서 텍스트를 추출하는 방식에 대한 다양한 옵션과 유연성이 필수적입니다. OCR 처리에는 비용이 많이 들기 때문에 특정 문서에 사용할 성능 및 방법을 제어할 수 있어야 OCR을 활용하는 애플리케이션의 확장성과 효율성을 보장할 수 있습니다.
IronTesseract는 개발자들에게 다양한 속성과 옵션을 제공하여 자유롭게 실험해 볼 수 있게 합니다. 예를 들어, 특정 문자를 블랙리스트에 추가하거나 문서 내 BARCODE를 읽거나, 심지어 OCR 엔진이 페이지를 읽어 잠재적인 텍스트 블록을 스캔하는 방식을 지정하고 싶다면, IronTesseract 클래스를 사용하면 이 모든 기능과 그 이상을 구현할 수 있습니다.
Tesseract 5와 함께 IronOCR를 사용하는 5단계 가이드
var ocrTesseract = new IronTesseract();ocrTesseract.Language = OcrLanguage.EnglishBest;ocrTesseract.Configuration.ReadBarCodes = false;ocrTesseract.Configuration.BlackListCharacters = "`ë|^";ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;
IronTesseract 클래스를 초기화한 후에는 즉시 사용할 수 있는 몇 가지 중요한 옵션이 있으며, 이를 수정해야 합니다. 가장 먼저 구성해야 할 속성은 Language입니다. 기본 언어는 영어입니다. 그러나 IronTesseract은 최대 125개 언어를 지원하며, UseMultipleLanguages 메서드를 사용하면 여러 언어를 동시에 처리할 수도 있습니다. 더 자세한 내용은 여기 를 참조하세요.
두 번째로 구성할 속성은 TesseractConfiguration 클래스입니다. 이 클래스를 사용하면 Tesseract 엔진이 문서에서 잠재적인 텍스트 블록을 검색하는 방식을 수정할 수 있습니다.
- 먼저,
OcrLanguage.EnglishBest에 언어를 할당하여 Tesseract Engine의 언어를 수정합니다. 이 변형은 OCR을 이용한 모양 인식 전략인LSTM와OEM를 결합한 것입니다; 이 두 가지 전략을 결합하면 OCR이 더욱 정확한 결과를 도출할 수 있습니다. - 그 후, OCR 처리 중 BARCODE가 인식되지 않도록
ReadBarCodes을 false로 설정합니다.
또한 문서에서 특정 문자를 블랙리스트에 추가하여 추출하고자 하는 문자를 더욱 구체적으로 지정하고 맞춤 설정합니다. 이 예시에서는 백틱, 악센트 기호 또는 캐럿 기호가 포함된 텍스트를 추출하지 않도록 문자를 블랙리스트에 추가합니다. 마지막으로, 당분간 병렬 처리를 비활성화하기 위해 TesseractVariables["tessedit_parallelize"]을 false로 설정했습니다. 이 마지막 기능은 Tesseract 엔진과 직접 통신하기 때문에 매우 강력한 기능입니다. 다음은 개발자가 OCR 수행 시 Tesseract 엔진의 동작을 더욱 세밀하게 사용자 정의할 수 있게 해주는 TesseractVariables의 전체 목록입니다.

