VIDEOS

Wie man mehrere Sprachen mit Tesseract verwendet

Kannaopat Udonpant
Kannapat Udonpant
17. März 2025
Teilen Sie:


Dieses Tutorial bietet eine umfassende Anleitung zur Verwendung von Tesseract in Verbindung mit IronOCR, um Text in mehreren Sprachen aus PDFs und Bildern zu erkennen. Zuerst stellen Sie sicher, dass IronOCR und die notwendigen Sprachpakete in Ihrem Projekt über den NuGet-Paket-Manager installiert sind. Beginnen Sie mit dem Import der erforderlichen Namespaces und der Einrichtung von IronOCR mit einem gültigen Lizenzschlüssel, um dessen volle Funktionalität freizuschalten. Instanziieren Sie das IronOCR Tesseract-Objekt, um eine optische Zeichenerkennung durchzuführen und verwenden Sie anfänglich Englisch als Standardsprache. Um Unterstützung für zusätzliche Sprachen wie Russisch hinzuzufügen, verwenden Sie die Methode 'add secondary language'.

Laden Sie eine PDF-Datei namens 'example.PDF' mit Text in verschiedenen Sprachen mithilfe der OCR-PDF-Eingabeklasse. Führen Sie OCR durch, um den Textinhalt zu extrahieren und speichern Sie die Ergebnisse in einem bestimmten Objekt. Um die korrekte Anzeige mehrsprachiger Zeichen sicherzustellen, setzen Sie die Konsolenausgabe-Kodierung auf Unicode, bevor Sie den extrahierten Text in die Konsole drucken.

Stellen Sie außerdem die primäre Sprache auf Russisch und fügen Sie Japanisch als sekundäre Sprache hinzu. Diese Änderung erleichtert die Erkennung sowohl von russischem als auch von japanischem Text. Laden Sie eine Bilddatei 'example.png', die mehrsprachigen Text enthält, mit der OCR-Bildeingabeklasse und führen Sie die Texterkennung mit den konfigurierten Spracheinstellungen aus. Speichern Sie das Ergebnis und drucken Sie den extrahierten Text aus dem Bild in die Konsole.

Indem Sie diese Schritte befolgen, können Sie nahtlos Texte in Englisch, Russisch und Japanisch aus verschiedenen Dateitypen extrahieren und erkennen. Dieses Tutorial hebt die Effektivität der Verwendung mehrerer Sprachen mit Tesseract und IronOCR hervor, wodurch die Verarbeitung von mehrsprachigem Text in PDFs und Bildern vereinfacht wird. Für weitere Tutorials und um mit der Verwendung von IronOCR zu beginnen, abonnieren Sie Iron Software und ziehen Sie in Betracht, sich für eine Testversion anzumelden.

Weiterführende Literatur: Verwendung mehrerer Sprachen mit Tesseract

Beginnen Sie jetzt mit IronOCR.
green arrow pointer

Kannaopat Udonpant
Software-Ingenieur
Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.
< PREVIOUS
Wie werden OCR-Sprachpakete in IronOCR verwendet?
NÄCHSTES >
Wie man Text aus einer Bilddatei extrahiert