Detaillierte Tesseract-Konfiguration

Wenn es um OCR geht, sind Optionen und Flexibilität bei der Herangehensweise und der Textextraktion aus Dokumenten entscheidend. Da die Durchführung von OCR kostspielig ist, muss die Leistung und die Methoden zur Bearbeitung bestimmter Dokumente kontrolliert werden, um sicherzustellen, dass die Anwendung, die OCR nutzt, skalierbar und effizient ist.

IronTesseract bietet Entwicklern verschiedene Eigenschaften und Optionen, mit denen sie experimentieren können. Wenn Sie beispielsweise bestimmte Zeichen auf eine Blacklist setzen, die BarCodes in den Dokumenten lesen oder sogar festlegen möchten, wie die OCR-Engine die Seite liest, um nach potenziellen Textblöcken zu suchen, ist all das und noch mehr mit der Klasse IronTesseract möglich.

Nach dem Aufruf der Klasse IronTesseract stehen sofort einige wichtige Optionen zur Verfügung, die wir ändern möchten. Die erste zu konfigurierende Eigenschaft ist Language. Standardmäßig ist die Sprache Englisch; IronTesseract unterstützt jedoch bis zu 125 Sprachen und ermöglicht mit der Methode UseMultipleLanguages sogar die Verwendung mehrerer Sprachen. Für weitere Details, siehe hier.

Die zweite Eigenschaft, die wir konfigurieren möchten, ist die Klasse TesseractConfiguration. Mit dieser Klasse können wir ändern, wie die Tesseract-Engine das Dokument nach potenziellen Textblöcken scannt.

  • Zunächst ändern wir die Sprache der Tesseract-Engine, indem wir die Sprache OcrLanguage.EnglishBest zuweisen. Diese Variante kombiniert ein LSTM und ein OEM, bei denen es sich um Strategien zur Formerkennung mittels OCR handelt; die Kombination dieser beiden Strategien ermöglicht es, dass OCR genauere Ergebnisse liefert.
  • Anschließend setzen wir ReadBarCodes auf "false", um zu vermeiden, dass während des OCR-Prozesses BarCodes gelesen werden.

Wir passen auch weiter an und geben die Zeichen an, die wir extrahieren möchten, indem wir bestimmte Zeichen im Dokument auf die schwarze Liste setzen; in diesem Beispiel setzen wir Zeichen auf die schwarze Liste, um zu vermeiden, dass Text mit Backticks, Akzenten oder Zirkumflexen extrahiert wird. Schließlich setzen wir TesseractVariables["tessedit_parallelize"] auf "false", um die Parallelverarbeitung vorerst zu deaktivieren. Letzteres ist eine wirklich leistungsstarke Funktion, da sie direkt mit der Tesseract-Engine kommuniziert. Hier ist eine vollständige Liste von TesseractVariables, die es Entwicklern ermöglicht, das Verhalten der Tesseract-Engine bei der Durchführung von OCR weiter anzupassen.

Weitere IronTesseract-Konfigurationsoptionen erkunden

Bereit anzufangen?
Nuget Downloads 5,896,332 | Version: 2026.5 just released
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.