Detaillierte Tesseract-Konfiguration Wenn es um OCR geht, sind Optionen und Flexibilität bei der Herangehensweise und der Textextraktion aus Dokumenten entscheidend. Da die Durchführung von OCR kostspielig ist, muss die Leistung und die Methoden zur Bearbeitung bestimmter Dokumente kontrolliert werden, um sicherzustellen, dass die Anwendung, die OCR nutzt, skalierbar und effizient ist. IronTesseract bietet Entwicklern verschiedene Eigenschaften und Optionen, mit denen sie experimentieren können. Zum Beispiel, wenn Sie bestimmte Zeichen auf die schwarze Liste setzen oder Barcodes innerhalb der Dokumente lesen möchten oder sogar vorgeben, wie die OCR-Engine die Seite liest, um nach potenziellen Textblöcken zu scannen, all das und mehr mit der IronTesseract-Klasse. 5-Step Guide to Using IronOCR with Tesseract 5 var ocrTesseract = new IronTesseract(); ocrTesseract.Language = OcrLanguage.EnglishBest; ocrTesseract.Configuration.ReadBarCodes = false; ocrTesseract.Configuration.BlackListCharacters = "`ë|^"; ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false; Nach dem Initiieren der IronTesseract-Klasse stehen sofort einige wichtige Optionen zur Verfügung, die wir ändern möchten. Die erste Eigenschaft, die konfiguriert werden muss, ist die Language. Standardmäßig ist die Sprache Englisch; jedoch unterstützt IronTesseract bis zu 125 Sprachen und erlaubt sogar mehrere Sprachen mit der Methode UseMultipleLanguages. Für weitere Details, siehe hier. Die zweite Eigenschaft, die wir konfigurieren möchten, ist die TesseractConfiguration-Klasse. Mit dieser Klasse können wir ändern, wie die Tesseract-Engine das Dokument nach potenziellen Textblöcken scannt. Zuerst ändern wir die Sprache der Tesseract-Engine, indem wir die Sprache auf OcrLanguage.EnglishBest setzen. Diese Variante kombiniert ein LSTM und ein OEM, das sind Formenerkennungsstrategien mit OCR; die Kombination dieser beiden Strategien ermöglicht es, dass OCR genauere Ergebnisse liefert. Danach setzen wir ReadBarCodes auf false, um das Lesen von Barcodes während des OCR-Vorgangs zu vermeiden. Wir passen auch weiter an und geben die Zeichen an, die wir extrahieren möchten, indem wir bestimmte Zeichen im Dokument auf die schwarze Liste setzen; in diesem Beispiel setzen wir Zeichen auf die schwarze Liste, um zu vermeiden, dass Text mit Backticks, Akzenten oder Zirkumflexen extrahiert wird. Schließlich setzen wir TesseractVariables["tessedit_parallelize"] auf false, um die parallele Verarbeitung vorläufig zu deaktivieren. Dieses letzte ist eine wirklich mächtige Funktion, da es direkt mit der Tesseract-Engine spricht. Hier ist eine vollständige Liste von TesseractVariables, die es Entwicklern ermöglicht, das Verhalten der Tesseract-Engine weiter anzupassen, wenn OCR durchgeführt wird. Weitere Konfigurationsmöglichkeiten von IronTesseract erkunden Verwandte Doku-Links Auf Github ansehen Verwandtes Tutorial Verwandte Anleitung Klassendokumentation OCR-Sprachpakete IronOCR DLL herunterladen Ein Problem auf dieser Seite melden Bereit anzufangen? Nuget Downloads 5,044,537 | Version: 2025.11 gerade veröffentlicht Kostenloser NuGet-Download Gesamtanzahl der Downloads: 5,044,537 Lizenzen anzeigen
In einer Live-Umgebung testen Testen Sie ohne Wasserzeichen in der Produktion.Funktioniert dort, wo Sie es brauchen.
Voll funktionsfähiges Produkt Erhalten Sie 30 Tage voll funktionsfähiges Produkt.In wenigen Minuten einsatzbereit.
24/5 technischer Support Voller Zugriff auf unser Support-Engineering-Team während Ihrer Produktprobe
In einer Live-Umgebung testen Testen Sie ohne Wasserzeichen in der Produktion.Funktioniert dort, wo Sie es brauchen.
Voll funktionsfähiges Produkt Erhalten Sie 30 Tage voll funktionsfähiges Produkt.In wenigen Minuten einsatzbereit.
24/5 technischer Support Voller Zugriff auf unser Support-Engineering-Team während Ihrer Produktprobe