Wie man mehrere Sprachen mit Tesseract verwendet

Mehrsprachigkeit mit Tesseract in C

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR ermöglicht die Textextraktion aus Dokumenten in mehreren Sprachen unter Verwendung der Tesseract-Engine, indem primäre und sekundäre Sprachen mit nur einer Zeile Code konfiguriert werden. IronOCR unterstützt über 125 Sprachpakete für eine nahtlose mehrsprachige OCR-Verarbeitung.

Einführung

IronOCR bietet Textextraktion aus verschiedenen Sprachen und Skripten unter Verwendung der Tesseract Engine als zuverlässiges OCR-Tool.

Dieser Artikel zeigt, wie IronOCR mit Hilfe von Tesseract Text in mehreren Sprachen verarbeitet. Sie lernen, wie Sie mehrsprachige OCR-Lösungen implementieren und die Fähigkeiten von IronOCR und die Integration seiner Tesseract-Engine verstehen.

Die Verarbeitung von Dokumenten in mehreren Sprachen ist für moderne Anwendungen unerlässlich. Internationale Geschäftsdokumente, mehrsprachige Websites und globale Kommunikationsplattformen erfordern eine genaue Textextraktion über Sprachgrenzen hinweg. IronOCR adressiert dieses Bedürfnis durch die Integration der umfangreichen Sprachunterstützung von Tesseract, was die Texterkennung aus Dokumenten mit mehreren Schriften und Zeichensätzen gleichzeitig ermöglicht.

Schnellstart: IronOCR verwenden, um Text in mehreren Sprachen zu erkennen

Konfigurieren Sie IronOCR mit einer Primärsprache und fügen Sie Sekundärsprachen in einer Zeile hinzu, um Text aus mehrsprachigen Dokumenten oder Bildern zu extrahieren.

  1. Installieren Sie IronOCR mit NuGet Package Manager

    PM > Install-Package IronOcr
  2. Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Bereitstellen zum Testen in Ihrer Live-Umgebung

    Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion

    arrow pointer


Wie lese ich mehrsprachige PDFs mit IronOCR?

IronOCR bietet etwa 125 Sprachpakete an; standardmäßig ist nur Englisch installiert. Laden Sie weitere Sprachen von NuGet herunter. Alle verfügbaren Sprachpakete hier ansehen.

PDFs, die mehrere Sprachen enthalten, erfordern eine spezielle Konfiguration der OCR-Engine. IronOCR ermöglicht die Angabe von Primär- und Sekundärsprachen vor der Verarbeitung von Dokumenten und gewährleistet so eine optimale Erkennungsgenauigkeit bei unterschiedlichen Skripten und Zeichensätzen.

Welche Sprachen sind für die PDF-Extraktion verfügbar?

Das folgende Beispiel zeigt, wie Sie mehrere Sprachen in IronOCR verwenden, um Text aus einer PDF-Datei zu extrahieren.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Für komplexe PDF-Verarbeitungsszenarien lesen Sie unseren Leitfaden PDF OCR Text Extraction, der fortgeschrittene Techniken für verschiedene PDF-Formate und -Strukturen abdeckt.

Wie wirkt sich die Sprachpriorität auf die OCR-Ergebnisse aus?

Fügen Sie beliebig viele weitere Sprachen mithilfe der Methode AddSecondaryLanguage hinzu. Beachten Sie, dass zusätzliche Sprachen die Geschwindigkeit und Leistung beeinträchtigen können. Die Priorität der Sprachen hängt von der Reihenfolge ab, in der sie hinzugefügt werden, wobei die erste Sprache eine höhere Priorität hat.

Bei der Bearbeitung mehrsprachiger Dokumente ist das Verständnis der Sprachpriorität entscheidend. Die Primärsprache erhält während der Texterkennung höchste Priorität - die OCR-Engine versucht zuerst, Zeichen mit dem Zeichensatz der Primärsprache abzugleichen. Sekundärsprachen werden konsultiert, wenn Zeichen aufgetreten, die nicht zu Primärsprachenmustern passen.

Für optimale Leistung:

  • Legen Sie die gebräuchlichste Sprache in Ihrem Dokument als Primärsprache fest
  • Fügen Sie Sekundärsprachen nach Häufigkeit geordnet in das Dokument ein
  • Beschränken Sie die sekundären Sprachen auf diejenigen, die für Ihren Anwendungsfall notwendig sind

Für Hochleistungsanwendungen mit mehreren Sprachen finden Sie in unserem Leitfaden Schnelle OCR-Konfiguration eine Anleitung zur Optimierung der Verarbeitungsgeschwindigkeit.

Wie bearbeite ich mehrsprachige Bilder mit Tesseract?

Englisch ist die primäre Standardsprache. Um dies zu ändern, setzen Sie die Eigenschaft Language auf die gewünschte Sprache und fügen Sie bei Bedarf weitere Sprachen hinzu.

Bilder, die mehrsprachigen Text enthalten, müssen sorgfältig konfiguriert werden. Im Gegensatz zu PDFs können Bilder unterschiedliche Textorientierungen, verschiedene Schriftarten und gemischte Schriften enthalten. Die Tesseract-Integration von IronOCR bietet umfassende Sprachkonfigurationsoptionen für diese Szenarien.

Wann sollte ich die Standard-Spracheinstellung ändern?

Ändern Sie die Standardsprache, wenn:

  • Der Großteil des Dokuments ist in einer nicht-englischen Sprache verfasst
  • Bearbeitung von Dokumenten aus einer bestimmten Region oder einem bestimmten Land
  • Ihre Anwendung richtet sich an Benutzer, die mit nicht-englischen Inhalten arbeiten
  • Optimierung der Erkennungsgenauigkeit für bestimmte Zeichensätze

Hier ist ein vollständiges Beispiel für eine mehrsprachige Bildverarbeitung:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Für benutzerdefinierte Sprachen oder spezielle Schriftarten lesen Sie bitte unsere Anleitung zur Verwendung benutzerdefinierter Sprachdateien.

Welche Ergebnisse kann ich von mehrsprachiger OCR erwarten?

Eine korrekte Konfiguration führt zu Ergebnissen wie diesen:

Mehrsprachige Textverarbeitungs-App, die russische und japanische Inhalte anzeigt, mit Konsolenausgabe zur Darstellung der Zeichenverarbeitung

Die Qualität der mehrsprachigen OCR-Ergebnisse hängt von mehreren Faktoren ab:

  1. Bildqualität: Eine höhere Auflösung (300+ DPI) liefert bessere Ergebnisse. Siehe unseren DPI-Einstellungsleitfaden.
  2. Textklarheit: Klarer, gut definierter Text ohne Artefakte führt zu einer genaueren Erkennung
  3. Sprachkonfiguration: Eine ordnungsgemäße Einrichtung der primären und sekundären Sprache gewährleistet korrekte Zeichenerkennungsmuster
  4. Vorbearbeitung: Geeignete Filter verbessern die Ergebnisse erheblich. Siehe unseren Leitfaden zu Bildkorrekturfiltern für Verbesserungstechniken.

Was sind die wichtigsten Erkenntnisse für mehrsprachige OCR?

IronOCR extrahiert mit Hilfe der Tesseract-Engine effektiv Text aus mehrsprachigen Dokumenten. Das Programm bewältigt die Komplexität des Lesens von Texten in vielen Sprachen und bietet eine vielseitige Lösung. Ob bei der Verarbeitung von PDFs mit verschiedenen Sprachen oder bei der Arbeit mit mehrsprachigen Bildinhalten, IronOCR vereinfacht das Erkennen und Extrahieren von Text in verschiedenen Sprachen.

Die wichtigsten Vorteile von IronOCR für die mehrsprachige Textextraktion:

  • Umfangreiche Sprachunterstützung: Über 125 internationale OCR-Sprachen über NuGet-Pakete
  • Flexible Konfiguration: Einfache API für primäre und sekundäre Spracheinstellungen
  • Hohe Genauigkeit: Verwendet Tesseract 5's fortschrittliche Erkennungsalgorithmen
  • Leistungsoptimierung: Eingebaute Multithreading-Unterstützung
  • Plattformübergreifende Kompatibilität: Funktioniert unter Windows, Linux und macOS

IronOCR bietet eine umfassende Lösung, die Benutzerfreundlichkeit mit leistungsstarken Funktionen für die mehrsprachige OCR-Implementierung kombiniert. Erstellen Sie Dokumentenmanagementsysteme, Übersetzungstools oder andere Anwendungen, die eine mehrsprachige Textextraktion erfordern, mit der für den Erfolg erforderlichen Flexibilität und Zuverlässigkeit.

Starten Sie Ihr mehrsprachiges OCR-Projekt, indem Sie IronOCR von NuGet herunterladen und sich mit unserer Dokumentation und den Beispielen vertraut machen. Für spezielle Anwendungsfälle oder fortgeschrittene Szenarien bieten unsere Fehlersuchanleitungen Einblicke für optimale Ergebnisse.

Häufig gestellte Fragen

Wie führe ich OCR für Dokumente durch, die mehrere Sprachen enthalten?

IronOCR ermöglicht es Ihnen, mehrsprachige OCR mit nur einer Zeile Code zu konfigurieren. Legen Sie eine Primärsprache mit der Eigenschaft Language fest und fügen Sie Sekundärsprachen mit der Methode AddSecondaryLanguage hinzu. Auf diese Weise kann IronOCR Text aus Dokumenten, die mehrere Schriften und Zeichensätze gleichzeitig enthalten, genau extrahieren.

Welche Sprachen werden für die Textextraktion unterstützt?

IronOCR unterstützt über 125 Sprachpakete durch die Integration der Tesseract-Engine. Während Englisch standardmäßig installiert ist, können Sie zusätzliche Sprachpakete von NuGet herunterladen, um OCR-Funktionen für Sprachen von Spanisch und Französisch bis hin zu Arabisch, Chinesisch, Japanisch und vielen anderen zu aktivieren.

Wie füge ich Sekundärsprachen für die OCR-Verarbeitung hinzu?

Verwenden Sie die AddSecondaryLanguage-Methode in IronOCR, um zusätzliche Sprachen zu aktivieren. Zum Beispiel: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Mit dieser Konfiguration kann IronOCR innerhalb desselben Dokuments sowohl spanischen als auch französischen Text erkennen.

Kann ich Text aus mehrsprachigen PDFs extrahieren?

Ja, IronOCR kann PDFs mit mehreren Sprachen verarbeiten. Konfigurieren Sie einfach die OCR-Engine mit Ihrer primären und sekundären Sprache vor der Verarbeitung. IronOCR verarbeitet automatisch verschiedene Skripte und Zeichensätze in der PDF-Datei und gewährleistet eine genaue Textextraktion in allen im Dokument enthaltenen Sprachen.

Muss ich die Sprachpakete separat installieren?

IronOCR enthält zwar standardmäßig Englisch, aber zusätzliche Sprachpakete müssen über NuGet installiert werden. Jedes Sprachpaket enthält die erforderlichen Daten, damit die Tesseract-Engine von IronOCR Text in der jeweiligen Sprache erkennen kann. Sie können alle verfügbaren Sprachpakete auf der IronOCR-Sprachen-Seite einsehen und herunterladen.

Was ist der minimale Arbeitsablauf für mehrsprachige OCR?

Der minimale Arbeitsablauf umfasst 5 Schritte: 1) Herunterladen der IronOCR-Bibliothek, 2) Vorbereiten des PDF- oder Bilddokuments, 3) Installieren der erforderlichen Sprachpakete über NuGet, 4) Verwenden der AddSecondaryLanguage-Methode, um zusätzliche Sprachen zu aktivieren, und 5) Festlegen der Eigenschaft Language für Ihre Primärsprache. Diese Einstellung ermöglicht eine genaue mehrsprachige Textextraktion.

Kann IronOCR in bestehende Anwendungen integriert werden?

IronOCR ist darauf ausgelegt, leicht in bestehende Anwendungen mithilfe von C# integriert zu werden, sodass Entwickler OCR-Funktionalität mit minimalem Aufwand zu ihrer Software hinzufügen können.

Was sind die Vorteile der Nutzung von IronOCR für das Dokumentenmanagement?

Die Verwendung von IronOCR für das Dokumentenmanagement rationalisiert den Arbeitsablauf, indem gescannte Dokumente in durchsuchbare und bearbeitbare Texte umgewandelt werden, wodurch der Bedarf an manueller Dateneingabe reduziert und die Zugänglichkeit von Dokumenten verbessert wird.

Wie kann IronOCR die Datenqualität verbessern?

IronOCR verbessert die Datenqualität durch seine fortschrittlichen Erkennungsalgorithmen und Bildkorrekturfunktionen, die sicherstellen, dass der Textextraktionsprozess sowohl zuverlässig als auch genau ist.

Gibt es eine kostenlose Testversion von IronOCR?

Ja, Iron Software bietet eine kostenlose Testversion von IronOCR an, die es den Benutzern ermöglicht, die Funktionen und Fähigkeiten zu testen, bevor sie eine Kaufentscheidung treffen.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen
Rezensiert von
Jeff Fritz
Jeffrey T. Fritz
Principal Program Manager - .NET Community Team
Jeff ist außerdem Principal Program Manager für das .NET- und Visual Studio-Team. Er ist der ausführende Produzent der .NET Conf Virtual Conference Series und moderiert ‚Fritz and Friends‘, einen Livestream für Entwickler, der zweimal wöchentlich ausgestrahlt wird. Dort spricht er über Technik und schreibt gemeinsam mit den Zuschauern Code. Jeff schreibt Workshops, Präsentationen und plant Inhalte für die größten Microsoft-Entwicklerveranstaltungen, einschließlich Microsoft Build, Microsoft Ignite, .NET Conf und dem Microsoft MVP Summit.
Bereit anzufangen?
Nuget Downloads 5,896,332 | Version: 2026.5 just released
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.