In diesem Tutorial erkunden wir den Prozess der Textextraktion aus Bildern mit Iron OCR, einer leistungsstarken Bibliothek für C#. Die Sitzung beginnt mit der Einrichtung einer C#-Konsolenanwendung in Visual Studio und der Installation der IronOCR-Bibliothek über den NuGet-Paket-Manager. Nachdem die Bibliothek importiert wurde, wird ein Iron Tesseract-Objekt initialisiert, und seine Konfigurationsoptionen werden feinjustiert, um das Lesen von Barcodes zu ermöglichen und die Sprache auf Englisch einzustellen. Diese Einrichtung ermöglicht eine genaue Texterkennung und verbesserte Leistung durch Multithreading. Zusätzliche Funktionen umfassen das Rendern von PDFs und das Festlegen des Seitensegmentierungsmodus auf Auto OSD, das automatisch Linien mit Wörtern segmentiert und unterteilt. Das Tutorial erklärt weiter, wie Konfigurationsvariablen zur Feinabstimmung des Verhaltens verwendet werden können, wie z.B. die Aktivierung der Parallelisierung für reibungslose Ausführung und das Erkennen von Tabellenlayouts. Die Textumkehrung ist deaktiviert, um die Ergebnisse zu verbessern. Das Tutorial bietet einen Link für weitere Konfigurationsoptionen. Als nächstes wird eine Bilddatei mithilfe des OCR-Eingabeobjekts geladen, und IronOCR wird verwendet, um Text aus dem Bild zu extrahieren. Der erkannte Text wird in die Konsole ausgegeben, was die hohe Genauigkeit der Bibliothek demonstriert. Das Tutorial endet, indem IronOCR als leistungsstarkes Werkzeug zum Extrahieren von Text aus Bildern und PDFs hervorgehoben wird, und ermutigt die Zuschauer, es mit einem bereitgestellten Testlink auszuprobieren.
Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.
< PREVIOUS Wie man mehrere Sprachen mit Tesseract verwendet
NÄCHSTES > Wie man Eingabebilder für die OCR-Verarbeitung in C# verwendet