Detaillierte Tesseract-Konfiguration

Wenn es um OCR geht, sind Optionen und Flexibilität bei der Herangehensweise und der Textextraktion aus Dokumenten entscheidend. Da die Durchführung von OCR kostspielig ist, muss die Leistung und die Methoden zur Bearbeitung bestimmter Dokumente kontrolliert werden, um sicherzustellen, dass die Anwendung, die OCR nutzt, skalierbar und effizient ist.

IronTesseract bietet Entwicklern verschiedene Eigenschaften und Optionen, mit denen sie experimentieren können. Wenn Sie beispielsweise bestimmte Zeichen auf eine Blacklist setzen oder auch die Barcodes in den Dokumenten lesen möchten oder sogar vorschreiben möchten, wie die OCR-Engine die Seite liest, um nach potenziellen Textblöcken zu suchen, all das und mehr ist mit der Klasse IronTesseract möglich.

Nach dem Start der Klasse IronTesseract stehen uns sofort einige wichtige Optionen zur Verfügung, die wir ändern möchten. Die erste zu konfigurierende Eigenschaft ist Language. Standardmäßig ist die Sprache Englisch; Allerdings unterstützt IronTesseract bis zu 125 Sprachen und ermöglicht mit der Methode UseMultipleLanguages sogar die Verwendung mehrerer Sprachen. Für weitere Details, siehe hier.

Die zweite Eigenschaft, die wir konfigurieren möchten, ist die Klasse TesseractConfiguration. Mit dieser Klasse können wir ändern, wie die Tesseract-Engine das Dokument nach potenziellen Textblöcken scannt.

  • Zunächst modifizieren wir die Sprache der Tesseract Engine, indem wir die Sprache OcrLanguage.EnglishBest zuweisen. Diese Variante kombiniert ein LSTM und ein OEM, das sind Formenerkennungsstrategien mit OCR; die Kombination dieser beiden Strategien ermöglicht es, dass OCR genauere Ergebnisse liefert. Anschließend haben wir ReadBarCodes auf false gesetzt, um zu vermeiden, dass Barcodes während des OCR-Prozesses gelesen werden.

Wir passen auch weiter an und geben die Zeichen an, die wir extrahieren möchten, indem wir bestimmte Zeichen im Dokument auf die schwarze Liste setzen; in diesem Beispiel setzen wir Zeichen auf die schwarze Liste, um zu vermeiden, dass Text mit Backticks, Akzenten oder Zirkumflexen extrahiert wird. Schließlich setzen wir TesseractVariables["tessedit_parallelize"] auf false, um die parallele Verarbeitung vorerst zu deaktivieren. Diese letzte Funktion ist besonders leistungsstark, da sie direkt mit der Tesseract-Engine interagiert. Hier ist eine vollständige Liste der TesseractVariables-Befehle, mit denen Entwickler das Verhalten der Tesseract-Engine bei der OCR-Nutzung weiter anpassen können.

Weitere IronTesseract-Konfigurationsoptionen erkunden

Bereit anzufangen?
Nuget Downloads 5,556,263 | Version: 2026.3 gerade veröffentlicht
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.