Dlaczego wybrać IronOCR zamiast Tesseract
Dokładność
Tesseract
- Tesseract nie radzi sobie z obsługą obrazów, które są obrócone, przekrzywione, mają niską rozdzielczość, są skanowane lub mają szumy tła.
- Wymaga wstępnego przetwarzania obrazów za pomocą programu Photoshop lub ImageMagick.
- Może zająć dużo czasu na przetwarzanie i często dostarcza bezsensowne informacje.
IronOCR
- IronOCR obsługuje wstępne przetwarzanie i stosuje filtry obrazów, aby uprościć proces.
- Użytkownicy często osiągają 99,8% do 100% dokładności przy minimalnej konfiguracji.
Zgodność z obrazami
Tesseract
- Akceptuje tylko format obrazu Leptonica PIX, który jest
IntPtrobiektem C++ w C#. - Obiekty PIX nie są zarządzane przez pamięć. Niewłaściwe ich obsługiwanie w C# skutkuje wyciekami pamięci.
IronOCR
- Obrazy są zarządzane przez pamięć.
- Wspiera szeroką gamę formatów obrazów:
- MultiFrame TIFF
- JPEG & JPEG2000
- GIF
- PNG
- System.Drawing Bitmaps, Stream, i Dane obrazu jako tablica bajtów/binarne (
byte[])
- IronSoftware.System.Drawing ma zastąpić reliance na System.Drawing, umożliwiając uniwersalny format Bitmap.
Wydajność
Tesseract
- Słabo udokumentowane ustawienia, które muszą być dopracowane, aby osiągnąć dokładność.
- Zależny od czystych dokumentów i wstępnie przetworzonych obrazów.
IronOCR
- Działa dokładnie bez żadnej konfiguracji dla większości obrazów.
- Wykorzystuje wielowątkowość do pełnego wykorzystania procesorów wielordzeniowych.
- Nawet niskiej rozdzielczości obrazy zazwyczaj dają wysoką dokładność.
- Nie wymaga Photoshopa.
API
Tesseract
- Mało lub brak wsparcia i nieprzyjazny dla początkujących:
- Wymaga pracy z warstwami Interop. Wiele z GitHub jest nieaktualnych z niezamkniętymi problemami, wyciekami pamięci i ostrzeżeniami konsolowymi.
- Może nie wspierać .NET Core lub Standard.
- Praca z wierszem polecenia EXE jest trudna do wdrożenia i może być przerwana przez skanery wirusów i polityki bezpieczeństwa.
- Wymaga pracy z warstwami Interop. Wiele z GitHub jest nieaktualnych z niezamkniętymi problemami, wyciekami pamięci i ostrzeżeniami konsolowymi.
IronOCR
- Zarządzana i przetestowana biblioteka .NET dla Tesseract nazwana IronTesseract.
- Całkowicie udokumentowane z wsparciem IntelliSense.
- Zespół inżynierów wsparcia gotowy do pomocy.
Języki
Tesseract
- Obsługuje tylko 100 języków.
IronOCR
- Obsługuje ponad 125 wbudowanych języków i umożliwia wsparcie niestandardowych paczek językowych.
Wnioski
Tesseract jest doskonałym zasobem dla programistów C++, ale nie jest kompletną biblioteką OCR dla .NET. Skanowane lub sfotografowane obrazy muszą być wstępnie przetworzone tak, aby były ortogonalne, znormalizowane, wysokiej rozdzielczości i wolne od cyfrowych szumów, zanim Tesseract będzie w stanie z nimi dokładnie pracować.
W przeciwieństwie do tego, IronOCR może to zrobić i więcej, przy użyciu tylko jednej linii kodu. IronOCR używa bardzo precyzyjnie dostosowanego Tesseract jako swojego wewnętrznego silnika OCR, zbudowanego dla C#, z wieloma ulepszeniami wydajności i funkcjami dodanymi jako standard.

