Tesseract 5 für .NET
Da digitale Dokumente im modernen Unternehmen und internationalen Geschäft Standard sind, ist eine OCR-Engine, die internationale Sprache darstellt und extrahiert, ein Schlüsselbestandteil für den Erfolg bei der Bearbeitung von Dokumenten.
Tesseract 5 ist die fortschrittlichste Bibliothek, die zu diesem Zeitpunkt in jeder Sprache bekannt ist. Es gibt jedoch einige Einschränkungen: Es ist nicht leicht zu implementieren und kann aufgrund der höheren Einstiegshürde als schwer zu verwenden angesehen werden.
Jedoch überbrückt IronOCR diese Lücke und ermöglicht es Entwicklern, sowohl Anfängern als auch erfahrenen Nutzern, Tesseract 5 in einer einfachen Bibliothek zu nutzen. Darüber hinaus ist IronOCR die einzige bekannte .NET-Bibliothek für Tesseract 5 OCR, mit plattformübergreifender Kompatibilität für .NET Framework, Standard, Core, Xamarin und Mono.
Sie können ein Dateiprojekt von dieser Seite herunterladenlink.
5-Schritte-Code zur Verwendung von Tesseract 5
var ocrTesseract = new EisenTesserakt();
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
Diese Zeile initialisiert eine Instanz von IronTesseract, einer Klasse, die von der IronOCR-Bibliothek bereitgestellt wird. Das neue Objekt, ocrTesseract, wird die optische Zeichenerkennung durchführen.(OCR)auf Bildern.
Als nächstes wird ein OcrInput-Objekt, ocrInput, erstellt, um das Bild oder die Bilder zur OCR-Verarbeitung zu halten. Das Schlüsselwort using stellt sicher, dass ocrInput automatisch entsorgt wird, wenn es nicht mehr benötigt wird, wodurch Ressourcen geschont werden.
Diese Zeile lädt eine Bilddatei unter "images\image.png" in ocrInput. Dieses Bild wird das Ziel für die OCR-Verarbeitung sein.
Hier wird der OCR-Vorgang durchgeführt. Die
Read
-Methode von ocrTesseract verarbeitet das geladene Bild in ocrInput und gibt ein OcrResult-Objekt, ocrResult, zurück, das den erkannten Text enthält.Abschließend druckt diese Zeile den extrahierten Text auf die Konsole, indem sie auf die Text-Eigenschaft von ocrResult zugreift.