IronOCR OCR 프로그램을 Tesseract보다 선택해야 하는 이유: 이미지 텍스트 변환 성능 비교
정확성
테서랙트
- 테서랙트는 회전되었거나, 기울어졌거나, DPI가 낮거나, 스캔되었거나, 배경 노이즈가 있는 이미지를 처리할 수 없습니다.
- 포토샵이나 이미지매직을 이용한 이미지 전처리 작업이 필요합니다.
- 처리하는 데 시간이 오래 걸릴 수 있으며, 종종 의미 없는 정보를 제공합니다.
IronOCR
- IronOCR 사전 처리 작업을 수행하고 이미지 필터를 적용하여 프로세스를 간소화합니다.
- 사용자는 최소한의 설정으로 99.8%에서 100%의 정확도를 달성하는 경우가 많습니다.
이미지 호환성
테서랙트
- Leptonica PIX 이미지 형식만 허용하며, 이는 C#의
IntPtrC++ 객체입니다. - PIX 객체는 관리되는 메모리가 아닙니다. C#에서 이러한 요소들을 주의해서 다루지 않으면 메모리 누수가 발생합니다.
IronOCR
- 이미지는 메모리 관리 방식입니다.
- 다양한 이미지 형식을 지원합니다.
- 멀티프레임 TIFF
- JPEG 및 JPEG2000
- GIF
- PNG
- System.Drawing 비트맵, 스트림, 바이트 배열/바이너리 이미지 데이터 (
byte[])
- System.Drawing 비트맵, 스트림, 바이트 배열/바이너리 이미지 데이터 (
- IronSoftware.System.Drawing 은 System.Drawing에 대한 의존성을 대체하여 범용 비트맵 형식을 지원할 것으로 예상됩니다.
성능
테서랙트
- 정확도를 확보하기 위해 세부 조정이 필요한, 문서화가 미흡한 설정값.
- 깨끗한 문서와 사전 처리된 이미지에 따라 결과가 달라집니다.
IronOCR
- 대부분의 이미지에서 별도의 설정 없이 정확하게 작동합니다.
- 멀티스레딩을 활용하여 멀티코어 프로세서의 성능을 최대한 발휘합니다.
- 해상도가 낮은 이미지라도 일반적으로 높은 정확도를 제공합니다. 포토샵이 필요 없습니다.
API
테서랙트
- 지원이 거의 없거나 전혀 없으며 초보자에게 적합하지 않음:
- 상호 운용성 계층과의 연동 작업이 필요합니다. GitHub 에서 찾을 수 있는 많은 코드는 오래되었고, 해결되지 않은 문제, 메모리 누수 및 콘솔 경고가 있습니다.
- .NET Core 또는 Standard를 지원하지 않을 수 있습니다.
- 명령줄 실행 파일(EXE)을 사용하는 것은 배포가 어렵고 바이러스 백신 및 보안 정책에 의해 중단될 수 있습니다.
- 상호 운용성 계층과의 연동 작업이 필요합니다. GitHub 에서 찾을 수 있는 많은 코드는 오래되었고, 해결되지 않은 문제, 메모리 누수 및 콘솔 경고가 있습니다.
IronOCR
- IronTesseract라는 이름의 Tesseract용 관리 및 테스트 완료된 .NET 라이브러리입니다.
- IntelliSense 지원을 포함한 완벽한 문서화 기능을 제공합니다.
- 지원을 제공할 준비가 되어 있는 엔지니어 팀.
언어
테서랙트
- 지원하는 언어는 100개뿐입니다.
IronOCR
- 125개 이상의 내장 언어를 지원하며 사용자 지정 언어 팩도 지원합니다.
결론
Tesseract는 C++ 개발자에게 훌륭한 리소스이지만, .NET 용 완전한 OCR 라이브러리는 아닙니다. 스캔하거나 촬영한 이미지는 Tesseract에서 정확하게 사용하려면 직교, 표준화, 고해상도 및 디지털 노이즈 제거와 같은 사전 처리가 필요합니다.
반면 IronOCR 단 한 줄의 코드로 이 모든 것을 비롯한 더 많은 작업을 수행할 수 있습니다. IronOCR C#으로 개발된 매우 정교하게 조정된 Tesseract를 자체 OCR 엔진으로 사용하며, 성능 향상 및 다양한 기능이 기본적으로 추가되었습니다.

