Tesseract Detaillierte Konfiguration
Wenn es um OCR geht, ist es entscheidend, Optionen und Flexibilität zu haben, wie man an Dokumente herangeht und Text daraus extrahiert. Da die Durchführung von OCR kostspielig ist, ist es notwendig, die Leistung und die Methoden, die bei bestimmten Dokumenten verwendet werden sollen, steuern zu können, um sicherzustellen, dass die Anwendung, die OCR nutzt, skalierbar und effizient ist.
IronTesseract bietet Entwicklern verschiedene Eigenschaften und Optionen, mit denen sie experimentieren können. Zum Beispiel, wenn Sie bestimmte Zeichen auf die schwarze Liste setzen oder auch die Barcodes innerhalb der Dokumente lesen möchten oder sogar festlegen möchten, wie die OCR-Engine die Seite liest, um nach potenziellen Textblöcken zu suchen, all das und mehr mit der IronTesseract
-Klasse.
5-Schritte-Anleitung zur Verwendung von IronOCR mit Tesseract 5
var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;
Nach der Initialisierung der IronTesseract
-Klasse stehen einige wichtige Optionen zur Verfügung, die wir sofort anpassen möchten. Die erste Eigenschaft, die konfiguriert werden muss, ist die Language
. Standardmäßig ist die Sprache Englisch; jedoch unterstützt IronTesseract
bis zu 125 Sprachen und erlaubt sogar mehrere Sprachen mit der UseMultipleLanguages
-Methode. Für weitere Informationen siehe hier.
Die zweite Eigenschaft, die wir konfigurieren möchten, ist die TesseractConfiguration
-Klasse. Mit dieser Klasse können wir ändern, wie die Tesseract-Engine das Dokument nach potenziellen Textblöcken scannt. Zuerst ändern wir die Sprache der Tesseract-Engine, indem wir die Sprache auf OcrLanguage.EnglishBest
setzen. Diese Variante kombiniert ein LTSM und ein OEM, was Formenerkennungsstrategien unter Verwendung von OCR sind; Die Kombination dieser beiden Strategien ermöglicht es der OCR, genauere Ergebnisse zu erzielen. Anschließend setzen wir ReadBarCodes
auf false, um das Lesen von Barcodes während des OCR-Prozesses zu vermeiden.
Wir passen weiterhin an und spezifizieren die Zeichen, die wir extrahieren möchten, indem wir bestimmte Zeichen im Dokument auf die schwarze Liste setzen. In diesem Beispiel setzen wir Zeichen auf eine Blacklist, um zu verhindern, dass Text mit Backticks, Akzenten oder dem Caret-Symbol extrahiert wird. Abschließend setzen wir TessreactVariables["tessedit_parallelize"]
auf false, um die Parallelverarbeitung vorübergehend zu deaktivieren. Dieses letzte ist eine wirklich leistungsstarke Funktion, da es direkt mit der Tesseract-Engine kommuniziert. Hier ist eine vollständige Liste von TesseractVariables
, die es den Entwicklern ermöglicht, das Verhalten der Tesseract-Engine bei der Durchführung von OCR weiter anzupassen. Klicken Sie hier, um den Leitfaden mit Beispielen, Muster-Code und Dateien anzusehen.