Warum IronOCR statt Tesseract – Bessere OCR Software für Texterkennung und Bild zu Text
Genauigkeit
Tesseract
- Tesseract kann nicht mit Bildern umgehen, die gedreht, verzogen, mit niedriger DPI, gescannt oder Hintergrundrauschen haben.
- Es erfordert eine Bildvorverarbeitung mit Photoshop oder ImageMagick.
- Die Verarbeitung kann lange dauern und oft unsinnige Informationen liefern.
IronOCR
- IronOCR behandelt die Vorverarbeitung und wendet Bildfilter an, um den Prozess zu vereinfachen.
- Benutzer erreichen oft eine Genauigkeit von 99,8% bis 100% mit minimaler Konfiguration.
Bildkompatibilität
Tesseract
- Akzeptiert ausschließlich das Leptonica PIX-Bildformat, das ein
IntPtrC++-Objekt in C# ist. - PIX Objekte sind kein verwalteter Speicher. Unsachgemäßer Umgang mit ihnen in C# führt zu Speicherlecks.
IronOCR
- Bilder sind speicherverwaltet.
- Unterstützt eine breite Palette an Bildformaten:
- MultiFrame TIFF
- JPEG & JPEG2000
- GIF
- PNG
- System.Drawing Bitmaps, Stream und Byte Array/Binary image Data (
byte[])
- IronSoftware.System.Drawing wird voraussichtlich die Abhängigkeit von System.Drawing ersetzen und ein universelles Bitmap-Format ermöglichen.
Leistung
Tesseract
- Schlecht dokumentierte Einstellungen, die fein abgestimmt werden müssen, um Genauigkeit zu erreichen.
- Abhängig von sauberen Dokumenten und vorverarbeiteten Bildern.
IronOCR
- Arbeitet genau mit null Konfiguration für die meisten Bilder.
- Nutzt Multithreading, um Mehrkernprozessoren voll auszuschöpfen.
- Auch Bilder mit niedriger Auflösung liefern in der Regel hohe Genauigkeit.
- Kein Photoshop erforderlich.
API
Tesseract
- Wenig bis keine Unterstützung und nicht anfängerfreundlich:
- Erfordert die Arbeit mit Interop-Schichten. Viele auf GitHub gefundene sind veraltet mit ungelösten Problemen, Speicherlecks und Konsolenwarnungen.
- Möglicherweise keine Unterstützung for .NET Core oder Standard.
- Die Arbeit mit der Befehlszeilen-EXE ist schwer zu implementieren und kann durch Virenscanner und Sicherheitsrichtlinien unterbrochen werden.
IronOCR
- Eine verwaltete und getestete .NET-Bibliothek für Tesseract namens IronTesseract.
- Vollständig dokumentiert mit IntelliSense-Unterstützung.
- Ein Team von Support-Ingenieuren steht bereit, um zu helfen.
Sprachen
Tesseract
- Unterstützt nur 100 Sprachen.
IronOCR
- Unterstützt über 125 eingebaute Sprachen und erlaubt die Unterstützung von benutzerdefinierten Sprachpaketen.
Abschluss
Tesseract ist eine hervorragende Ressource für C++-Entwickler, aber es ist keine vollständige OCR-Bibliothek for .NET. Gescannten oder fotografierten Bildern muss vor der Verarbeitung mit Tesseract eine orthogonale, standardisierte, hochauflösende und rauschfreie Bearbeitung erfolgen, damit es genau funktioniert.
Im Gegensatz dazu kann IronOCR dies und mehr mit nur einer einzigen Codezeile leisten. IronOCR verwendet eine sehr fein abgestimmte Tesseract für seine interne OCR-Engine, gebaut für C#, mit vielen Leistungsverbesserungen und Funktionen als Standard hinzugefügt.

