테서랙트 상세 구성 OCR에 있어서는 문서에서 텍스트를 추출하는 방식에 대한 다양한 옵션과 유연성이 필수적입니다. OCR 처리에는 비용이 많이 들기 때문에 특정 문서에 사용할 성능 및 방법을 제어할 수 있어야 OCR을 활용하는 애플리케이션의 확장성과 효율성을 보장할 수 있습니다. IronTesseract는 개발자에게 다양한 속성과 옵션을 제공하여 사용자가 원하는 대로 조정할 수 있도록 합니다. 예를 들어 특정 문자를 차단 목록에 추가하거나 문서 내의 바코드를 읽거나 OCR 엔진이 페이지를 읽어 잠재적인 텍스트 블록을 스캔하는 방식을 지정하려는 경우, 이 모든 것과 그 이상의 기능을 IronTesseract 클래스를 통해 사용할 수 있습니다. ## IronOCR 과 Tesseract 5를 함께 사용하는 5단계 가이드 `var ocrTesseract = new IronTesseract();` `ocrTesseract.Language = OcrLanguage.EnglishBest;` `ocrTesseract.Configuration.ReadBarCodes = false;` `ocrTesseract.Configuration.BlackListCharacters = "`ë|^";` `ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;` IronTesseract 클래스를 초기화한 후에는 수정하고 싶은 몇 가지 중요한 옵션이 즉시 제공됩니다. 먼저 설정해야 할 속성은 Language입니다. 기본 언어는 영어입니다. 하지만 IronTesseract는 최대 125개 언어를 지원하며 UseMultipleLanguages 메서드를 사용하면 여러 언어를 사용할 수도 있습니다. 더 자세한 내용은 여기 를 참조하세요. 두 번째로 설정하려는 속성은 TesseractConfiguration 클래스입니다. 이 클래스를 사용하면 Tesseract 엔진이 문서에서 잠재적인 텍스트 블록을 검색하는 방식을 수정할 수 있습니다. 먼저, 테서랙트 엔진의 언어를 OcrLanguage.EnglishBest로 지정하여 수정합니다. 이 변형은 OCR을 사용하는 형태 인식 전략인 LSTM과 OEM을 결합한 것입니다. 이 두 가지 전략을 결합하면 OCR이 더욱 정확한 결과를 도출할 수 있습니다. 그 후, OCR 처리 과정에서 바코드를 읽지 않도록 ReadBarCodes를 false로 설정했습니다. 또한 문서에서 특정 문자를 블랙리스트에 추가하여 추출하고자 하는 문자를 더욱 구체적으로 지정하고 맞춤 설정합니다. 이 예시에서는 백틱, 악센트 기호 또는 캐럿 기호가 포함된 텍스트를 추출하지 않도록 문자를 블랙리스트에 추가합니다. 마지막으로, 병렬 처리를 당분간 비활성화하기 위해 TesseractVariables["tessedit_parallelize"]를 false로 설정했습니다. 마지막 기능은 테서랙트 엔진과 직접적으로 연동되는 매우 강력한 기능입니다. 개발자가 OCR을 수행할 때 테서랙트 엔진의 동작을 더욱 세밀하게 사용자 지정할 수 있도록 하는 TesseractVariables의 전체 목록은 다음 과 같습니다. IronTesseract의 다양한 구성 옵션을 살펴보세요 관련 문서 링크 깃허브에서 보기 관련 튜토리얼 관련 사용법 가이드 클래스 문서화 OCR 언어 팩 IronOCR DLL 다운로드 이 페이지의 문제점을 신고하세요 시작할 준비 되셨나요? Nuget 다운로드 5,525,971 | 버전: 2026.3 방금 출시되었습니다 무료 체험 시작하기 NuGet 무료 다운로드 총 다운로드 수: 5,525,971 라이선스 보기 아직도 스크롤하고 계신가요? 빠른 증거를 원하시나요? PM > Install-Package IronOcr 샘플을 실행하세요 이미지가 검색 가능한 텍스트로 바뀌는 것을 확인해 보세요. NuGet 무료 다운로드 총 다운로드 수: 5,525,971 라이선스 보기