Warum IronOCR anstelle von Tesseract wählen?
Genauigkeit
Tesserakt
- Tesseract ist nicht in der Lage, ein Bild zu verarbeiten, das gedreht, verzerrt, mit niedriger DPI, gescannt oder mit Hintergrundrauschen versehen ist
- Erfordert eine Bildvorverarbeitung mit Photoshop oder ImageMagick
- Lange Bearbeitungszeit bis zur Bereitstellung unsinniger Informationen
IronOCR
- _**_IronOCR-Vorverarbeitung undbildfilter nimm diese Kopfschmerzen weg
- Benutzer erreichen oft eine Genauigkeit von 99,8-100 % bei minimaler Konfiguration
Bildkompatibilität
Tesserakt
- akzeptiert nur das Leptonica PIX Bildformat, das ein IntPtr C++ Objekt in C# ist
- PIX-Objekte sind kein verwalteter Speicher - wenn sie in C# nicht sorgfältig behandelt werden, kommt es zu Speicherlecks
IronOCR
- Bilder mit Speicherverwaltung
- Unterstützung von PDF und Broad Image:
- MultiFrame TIFF
- JPEG UND JPEG2000
- GIF
- PNG
- System.Drawing Bitmaps, Stream und Byte-Array/Binärbilddaten(byte[]) sind für jedes Dateiformat enthalten
IronSoftware.System.Drawing demnächst System.Drawing Reliance ersetzen(ermöglicht universelles Bitmap-Format)
Leistung
Tesserakt
- Unzureichend dokumentierte Einstellungen müssen feinabgestimmt werden, um eine genaue
- Abhängig von sauberen Dokumenten/vorverarbeiteten Bildern
IronOCR
- Die Nullkonfiguration funktioniert bei den meisten Bildern präzise und schnell
- Multithreading nutzt Multicore-Prozessoren voll aus
- Selbst Bilder mit geringer Auflösung funktionieren im Allgemeinen mit einem hohen Maß an Genauigkeit
- Kein Photoshop erforderlich
API
Tesserakt
Wenig bis keine Unterstützung, nicht anfängerfreundlich:
Arbeit mit Interop-Schichten - viele der auf GitHub gefundenen Schichten sind veraltet mit ungelösten Tickets, Speicherlecks und Konsolenwarnungen
-- Unterstützt möglicherweise nicht .NET Core oder Standard
- Arbeit mit der Befehlszeilen-EXE - schwierig zu implementieren und ständig von Virenscannern und Sicherheitsrichtlinien gestört
IronOCR
- Eine verwaltete und getestete .NET-Bibliothek für Tesseract namens IronTesseract
- Vollständig dokumentiert mit IntelliSense-Unterstützung
- Ein Team von Support-Ingenieuren steht Ihnen zur Seite
Sprachen
Tesserakt
- Nur 100 Sprachen
IronOCR
- Über 127 integrierte Sprachen + Unterstützung für benutzerdefinierte Sprachpakete
Schlussfolgerung
Tesseract ist eine hervorragende Ressource für C++-Entwickler, aber es ist keine vollständige OCR-Bibliothek für .NET. Gescannte oder fotografierte Bilder müssen vorbearbeitet werden, damit sie orthogonal, standardisiert, hochauflösend und frei von digitalem Rauschen sind, bevor Tesseract mit ihnen arbeiten kann.
Im Gegensatz dazu kann IronOCR dies und mehr mit nur einer einzigen Codezeile erledigen. IronOCR verwendet ein sehr fein abgestimmtesTesserakt für seine interne OCR-Engine, die für C# entwickelt wurde, mit einer Vielzahl von Leistungsverbesserungen und standardmäßig hinzugefügten Funktionen.