Tesseract Detaillierte Konfiguration
Wenn es um OCR geht, ist es entscheidend, Optionen und Flexibilität zu haben, wie man an Dokumente herangeht und Text daraus extrahiert. Da die Durchführung von OCR kostspielig ist, ist es notwendig, die Leistung und die Methoden, die bei bestimmten Dokumenten verwendet werden sollen, steuern zu können, um sicherzustellen, dass die Anwendung, die OCR nutzt, skalierbar und effizient ist.
IronTesseract bietet Entwicklern verschiedene Eigenschaften und Optionen, mit denen sie experimentieren können. Zum Beispiel, wenn Sie bestimmte Zeichen auf die schwarze Liste setzen oder auch die Barcodes innerhalb der Dokumente lesen möchten oder sogar diktieren möchten, wie die OCR-Engine die Seite liest, um nach potenziellen Textblöcken zu suchen, all das und mehr mit der IronTesseract
-Klasse.
5-Schritte-Anleitung zur Verwendung von IronOCR mit Tesseract 5
var ocrTesseract = new EisenTesserakt();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë ^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"]= false;
Nach der Initialisierung der
IronTesseract
-Klasse stehen sofort einige wichtige Optionen zur Verfügung, die wir ändern möchten. Die erste Eigenschaft, die konfiguriert werden muss, ist dieLanguage
. Standardmäßig ist die Sprache Englisch; Jedoch unterstütztIronTesseract
bis zu 125 Sprachen und ermöglicht sogar mehrere Sprachen mit der MethodeUseMultipleLanguages
. Für weitere Details, beziehen Sie sich aufhier.Die zweite Eigenschaft, die wir konfigurieren möchten, ist die Klasse
TesseractConfiguration
. Mit dieser Klasse können wir ändern, wie die Tesseract-Engine das Dokument nach potenziellen Textblöcken scannt. Zuerst ändern wir die Sprache der Tesseract Engine, indem wir die Sprache aufOcrLanguage.EnglishBest
setzen. Diese Variante kombiniert ein LTSM und ein OEM, was Formenerkennungsstrategien unter Verwendung von OCR sind; Die Kombination dieser beiden Strategien ermöglicht es der OCR, genauere Ergebnisse zu erzielen. Anschließend setzen wirReadBarCodes
auf false, um das Lesen von Barcodes während des OCR-Vorgangs zu vermeiden.Wir passen weiterhin an und spezifizieren die Zeichen, die wir extrahieren möchten, indem wir bestimmte Zeichen im Dokument auf die schwarze Liste setzen. In diesem Beispiel setzen wir Zeichen auf eine Blacklist, um zu verhindern, dass Text mit Backticks, Akzenten oder dem Caret-Symbol extrahiert wird. Schließlich setzen wir die
TessreactVariables["tessedit_parallelize"]
auf false setzen, um die parallele Verarbeitung vorübergehend zu deaktivieren. Diese letzte Funktion ist wirklich leistungsstark, da sie direkt mit der Tesseract Engine kommuniziert.Hierist eine vollständige Liste vonTesseractVariables
, die es den Entwicklern ermöglicht, das Verhalten der Tesseract Engine bei der Durchführung von OCR weiter anzupassen.Klicken Sie hier, um den How-to-Guide mit Beispielen, Beispielcode und Dateien anzusehen >