Warum IronOCR und nicht Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

Genauigkeit

Tesserakt

  • Tesseract ist nicht in der Lage, ein Bild zu verarbeiten, das gedreht, verzerrt, mit niedriger DPI, gescannt oder mit Hintergrundrauschen versehen ist
  • Erfordert eine Bildvorverarbeitung mit Photoshop oder ImageMagick
  • Lange Bearbeitungszeit bis zur Bereitstellung unsinniger Informationen

IronOCR

  • _**_IronOCR-Vorverarbeitung undbildfilter nimm diese Kopfschmerzen weg
  • Benutzer erreichen oft eine Genauigkeit von 99,8-100 % bei minimaler Konfiguration

Bildkompatibilität

Tesserakt

  • akzeptiert nur das Leptonica PIX Bildformat, das ein IntPtr C++ Objekt in C# ist
  • PIX-Objekte sind kein verwalteter Speicher - wenn sie in C# nicht sorgfältig behandelt werden, kommt es zu Speicherlecks

IronOCR

  • Bilder mit Speicherverwaltung
  • Unterstützung von PDF und Broad Image:
  • MultiFrame TIFF
  • JPEG UND JPEG2000
  • GIF
  • PNG
  • System.Drawing Bitmaps, Stream und Byte-Array/Binärbilddaten(byte[]) sind für jedes Dateiformat enthalten
  • IronSoftware.System.Drawing demnächst System.Drawing Reliance ersetzen(ermöglicht universelles Bitmap-Format)

    Leistung

Tesserakt

  • Unzureichend dokumentierte Einstellungen müssen feinabgestimmt werden, um eine genaue
  • Abhängig von sauberen Dokumenten/vorverarbeiteten Bildern

IronOCR

  • Die Nullkonfiguration funktioniert bei den meisten Bildern präzise und schnell
  • Multithreading nutzt Multicore-Prozessoren voll aus
  • Selbst Bilder mit geringer Auflösung funktionieren im Allgemeinen mit einem hohen Maß an Genauigkeit
  • Kein Photoshop erforderlich

API

Tesserakt

Wenig bis keine Unterstützung, nicht anfängerfreundlich:

  1. Arbeit mit Interop-Schichten - viele der auf GitHub gefundenen Schichten sind veraltet mit ungelösten Tickets, Speicherlecks und Konsolenwarnungen

    -- Unterstützt möglicherweise nicht .NET Core oder Standard

  2. Arbeit mit der Befehlszeilen-EXE - schwierig zu implementieren und ständig von Virenscannern und Sicherheitsrichtlinien gestört

IronOCR

  • Eine verwaltete und getestete .NET-Bibliothek für Tesseract namens IronTesseract
  • Vollständig dokumentiert mit IntelliSense-Unterstützung
  • Ein Team von Support-Ingenieuren steht Ihnen zur Seite

Sprachen

Tesserakt

  • Nur 100 Sprachen

IronOCR

  • Über 127 integrierte Sprachen + Unterstützung für benutzerdefinierte Sprachpakete

Schlussfolgerung

Tesseract ist eine hervorragende Ressource für C++-Entwickler, aber es ist keine vollständige OCR-Bibliothek für .NET. Gescannte oder fotografierte Bilder müssen vorbearbeitet werden, damit sie orthogonal, standardisiert, hochauflösend und frei von digitalem Rauschen sind, bevor Tesseract mit ihnen arbeiten kann.

Im Gegensatz dazu kann IronOCR dies und mehr mit nur einer einzigen Codezeile erledigen. IronOCR verwendet ein sehr fein abgestimmtesTesserakt für seine interne OCR-Engine, die für C# entwickelt wurde, mit einer Vielzahl von Leistungsverbesserungen und standardmäßig hinzugefügten Funktionen.