Wie man mehrere Sprachen mit Tesseract verwendet

Mehrsprachigkeit mit Tesseract in C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR ermöglicht die Textextraktion aus Dokumenten in mehreren Sprachen unter Verwendung der Tesseract-Engine, indem primäre und sekundäre Sprachen mit nur einer Zeile Code konfiguriert werden. IronOCR unterstützt über 125 Sprachpakete für eine nahtlose mehrsprachige OCR-Verarbeitung.

Einführung

IronOCR bietet Textextraktion aus verschiedenen Sprachen und Skripten unter Verwendung der Tesseract Engine als zuverlässiges OCR-Tool.

Dieser Artikel zeigt, wie IronOCR mit Hilfe von Tesseract Text in mehreren Sprachen verarbeitet. Sie werden lernen, wie man mehrsprachige OCR-Lösungen implementiert und die Möglichkeiten von IronOCR und seiner Tesseract-Engine-Integration verstehen.

Die Verarbeitung von Dokumenten in mehreren Sprachen ist für moderne Anwendungen unerlässlich. Internationale Geschäftsdokumente, mehrsprachige Websites und globale Kommunikationsplattformen erfordern eine genaue Textextraktion über Sprachgrenzen hinweg. IronOCR erfüllt diese Anforderung durch die Integration mit der umfangreichen Sprachunterstützung von Tesseract, die eine gleichzeitige Textextraktion aus Dokumenten mit mehreren Skripten und Zeichensätzen ermöglicht.

Schnellstart: Verwendung von IronOCR zur Erkennung von Texten in mehreren Sprachen

Konfigurieren Sie IronOCR mit einer Primärsprache und fügen Sie Sekundärsprachen in einer Zeile hinzu, um Text aus mehrsprachigen Dokumenten oder Bildern zu extrahieren.

Nuget IconLegen Sie jetzt mit NuGet los, um PDFs zu erstellen:

  1. Installieren Sie IronOCR mit dem NuGet-Paketmanager.

    PM > Install-Package IronOcr

  2. Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Bereitstellen zum Testen in Ihrer Live-Umgebung

    Beginnen Sie noch heute mit der Nutzung von IronOCR in Ihrem Projekt – mit einer kostenlosen Testversion.
    arrow pointer


Wie lese ich mehrsprachige PDFs mit IronOCR?

IronOcr bietet etwa 125 Sprachpakete; standardmäßig ist nur Englisch installiert. Laden Sie weitere Sprachen von NuGet herunter. Alle verfügbaren Sprachpakete finden Sie hier..

PDFs, die mehrere Sprachen enthalten, erfordern eine spezielle Konfiguration der OCR-Engine. IronOCR ermöglicht die Angabe von Primär- und Sekundärsprachen vor der Verarbeitung von Dokumenten und gewährleistet so eine optimale Erkennungsgenauigkeit bei unterschiedlichen Skripten und Zeichensätzen.

Welche Sprachen sind für die PDF-Extraktion verfügbar?

Das folgende Beispiel zeigt, wie man mehrere Sprachen in IronOcr verwendet, um Text aus einer PDF-Datei zu extrahieren.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Für komplexe PDF-Verarbeitungsszenarien lesen Sie unseren Leitfaden PDF OCR Text Extraction, der fortgeschrittene Techniken für verschiedene PDF-Formate und -Strukturen abdeckt.

Wie wirkt sich die Sprachpriorität auf die OCR-Ergebnisse aus?

Fügen Sie mit der Methode AddSecondaryLanguage eine beliebige Anzahl von Sekundärsprachen hinzu. Beachten Sie, dass zusätzliche Sprachen die Geschwindigkeit und Leistung beeinträchtigen können. Die Priorität der Sprachen hängt von der Reihenfolge ab, in der sie hinzugefügt werden, wobei die erste Sprache eine höhere Priorität hat.

Bei der Bearbeitung mehrsprachiger Dokumente ist das Verständnis der Sprachpriorität entscheidend. Die Primärsprache hat bei der Textextraktion höchste Priorität - die OCR-Engine versucht zunächst, die Zeichen mit dem Zeichensatz der Primärsprache abzugleichen. Sekundärsprachen werden konsultiert, wenn Zeichen auftauchen, die nicht den Mustern der Primärsprache entsprechen.

Für optimale Leistung:

  • Legen Sie die gebräuchlichste Sprache in Ihrem Dokument als Primärsprache fest
  • Fügen Sie Sekundärsprachen nach Häufigkeit geordnet in das Dokument ein
  • Beschränken Sie die sekundären Sprachen auf diejenigen, die für Ihren Anwendungsfall notwendig sind

Für Hochleistungsanwendungen mit mehreren Sprachen finden Sie in unserem Leitfaden Schnelle OCR-Konfiguration eine Anleitung zur Optimierung der Verarbeitungsgeschwindigkeit.

Wie bearbeite ich mehrsprachige Bilder mit Tesseract?

Englisch ist die primäre Standardsprache. To change it, set the Language property to your desired language, then add secondary languages as needed.

Bilder, die mehrsprachigen Text enthalten, müssen sorgfältig konfiguriert werden. Im Gegensatz zu PDFs können Bilder unterschiedliche Textausrichtungen, verschiedene Schriftarten und gemischte Skripte enthalten. Die Tesseract-Integration von IronOCR bietet umfassende Sprachkonfigurationsoptionen für diese Szenarien.

Wann sollte ich die Standard-Spracheinstellung ändern?

Ändern Sie die Standardsprache, wenn:

  • Der Großteil des Dokuments ist in einer nicht-englischen Sprache verfasst
  • Bearbeitung von Dokumenten aus einer bestimmten Region oder einem bestimmten Land
  • Ihre Anwendung richtet sich an Benutzer, die mit nicht-englischen Inhalten arbeiten
  • Optimierung der Erkennungsgenauigkeit für bestimmte Zeichensätze

Hier ist ein vollständiges Beispiel für eine mehrsprachige Bildverarbeitung:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Für benutzerdefinierte Sprachen oder spezielle Schriftarten lesen Sie bitte unsere Anleitung zur Verwendung benutzerdefinierter Sprachdateien.

Welche Ergebnisse kann ich von mehrsprachiger OCR erwarten?

Eine korrekte Konfiguration führt zu Ergebnissen wie diesen:

Mehrsprachige Textverarbeitungsanwendung mit russischem und japanischem Inhalt und Konsolenausgabe zur Anzeige der Zeichenverarbeitung

Die Qualität der mehrsprachigen OCR-Ergebnisse hängt von mehreren Faktoren ab:

  1. Bildqualität: Eine höhere Auflösung (300+ DPI) liefert bessere Ergebnisse. Siehe unseren DPI-Einstellungsleitfaden.
  2. Textklarheit: Ein klarer, gut definierter Text ohne Artefakte führt zu einer genaueren Erkennung
  3. Sprachkonfiguration: Die korrekte Einstellung von Primär- und Sekundärsprache gewährleistet eine korrekte Zeichenerkennung
  4. Vorbearbeitung: Geeignete Filter verbessern die Ergebnisse erheblich. Siehe unseren Leitfaden zu Bildkorrekturfiltern für Verbesserungstechniken.

Was sind die wichtigsten Erkenntnisse für mehrsprachige OCR?

IronOCR extrahiert mit Hilfe der Tesseract-Engine effektiv Text aus mehrsprachigen Dokumenten. Das Programm bewältigt die Komplexität des Lesens von Texten in vielen Sprachen und bietet eine vielseitige Lösung. Ob bei der Verarbeitung von PDFs mit verschiedenen Sprachen oder bei der Arbeit mit mehrsprachigen Bildinhalten, IronOCR vereinfacht das Erkennen und Extrahieren von Text in verschiedenen Sprachen.

Die wichtigsten Vorteile von IronOCR für die mehrsprachige Textextraktion:

  • Umfassende Sprachunterstützung: Über 125 internationale OCR-Sprachen über NuGet-Pakete
  • Flexible Konfiguration: Einfache API für primäre und sekundäre Spracheinstellungen
  • Hohe Genauigkeit: Verwendet die fortschrittlichen Erkennungsalgorithmen von Tesseract 5
  • Leistungsoptimierung: Eingebaute Multithreading Unterstützung
  • Plattformübergreifende Kompatibilität: Funktioniert unter Windows, Linux und macOS

IronOCR bietet eine umfassende Lösung, die Benutzerfreundlichkeit mit leistungsstarken Funktionen für die mehrsprachige OCR-Implementierung kombiniert. Erstellen Sie Dokumentenmanagementsysteme, Übersetzungstools oder andere Anwendungen, die eine mehrsprachige Textextraktion erfordern, mit der für den Erfolg erforderlichen Flexibilität und Zuverlässigkeit.

Starten Sie Ihr mehrsprachiges OCR-Projekt, indem Sie IronOCR von NuGet herunterladen und sich mit unserer Dokumentation und den Beispielen vertraut machen. Für spezielle Anwendungsfälle oder fortgeschrittene Szenarien bieten unsere Fehlersuchanleitungen Einblicke für optimale Ergebnisse.

Häufig gestellte Fragen

Wie führe ich OCR für Dokumente durch, die mehrere Sprachen enthalten?

IronOCR ermöglicht es Ihnen, mehrsprachige OCR mit nur einer Zeile Code zu konfigurieren. Legen Sie eine Primärsprache mit der Eigenschaft Language fest und fügen Sie Sekundärsprachen mit der Methode AddSecondaryLanguage hinzu. Auf diese Weise kann IronOCR Text aus Dokumenten, die mehrere Schriften und Zeichensätze gleichzeitig enthalten, genau extrahieren.

Welche Sprachen werden für die Textextraktion unterstützt?

IronOCR unterstützt über 125 Sprachpakete durch die Integration der Tesseract-Engine. Während Englisch standardmäßig installiert ist, können Sie zusätzliche Sprachpakete von NuGet herunterladen, um OCR-Funktionen für Sprachen von Spanisch und Französisch bis hin zu Arabisch, Chinesisch, Japanisch und vielen anderen zu aktivieren.

Wie füge ich Sekundärsprachen für die OCR-Verarbeitung hinzu?

Verwenden Sie die AddSecondaryLanguage-Methode in IronOCR, um zusätzliche Sprachen zu aktivieren. Zum Beispiel: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Mit dieser Konfiguration kann IronOCR innerhalb desselben Dokuments sowohl spanischen als auch französischen Text erkennen.

Kann ich Text aus mehrsprachigen PDFs extrahieren?

Ja, IronOCR kann PDFs mit mehreren Sprachen verarbeiten. Konfigurieren Sie einfach die OCR-Engine mit Ihrer primären und sekundären Sprache vor der Verarbeitung. IronOCR verarbeitet automatisch verschiedene Skripte und Zeichensätze in der PDF-Datei und gewährleistet eine genaue Textextraktion in allen im Dokument enthaltenen Sprachen.

Muss ich die Sprachpakete separat installieren?

IronOCR enthält zwar standardmäßig Englisch, aber zusätzliche Sprachpakete müssen über NuGet installiert werden. Jedes Sprachpaket enthält die erforderlichen Daten, damit die Tesseract-Engine von IronOCR Text in der jeweiligen Sprache erkennen kann. Sie können alle verfügbaren Sprachpakete auf der IronOCR-Sprachen-Seite einsehen und herunterladen.

Was ist der minimale Arbeitsablauf für mehrsprachige OCR?

Der minimale Arbeitsablauf umfasst 5 Schritte: 1) Herunterladen der IronOCR-Bibliothek, 2) Vorbereiten des PDF- oder Bilddokuments, 3) Installieren der erforderlichen Sprachpakete über NuGet, 4) Verwenden der AddSecondaryLanguage-Methode, um zusätzliche Sprachen zu aktivieren, und 5) Festlegen der Eigenschaft Language für Ihre Primärsprache. Diese Einstellung ermöglicht eine genaue mehrsprachige Textextraktion.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen
Rezensiert von
Jeff Fritz
Jeffrey T. Fritz
Principal Program Manager - .NET Community Team
Jeff ist außerdem Principal Program Manager für das .NET- und Visual Studio-Team. Er ist der ausführende Produzent der .NET Conf Virtual Conference Series und moderiert ‚Fritz and Friends‘, einen Livestream für Entwickler, der zweimal wöchentlich ausgestrahlt wird. Dort spricht er über Technik und schreibt gemeinsam mit den Zuschauern Code. Jeff schreibt Workshops, Präsentationen und plant Inhalte für die größten Microsoft-Entwicklerveranstaltungen, einschließlich Microsoft Build, Microsoft Ignite, .NET Conf und dem Microsoft MVP Summit.
Bereit anzufangen?
Nuget Downloads 5,246,844 | Version: 2025.12 gerade veröffentlicht