Wie man mehrere Sprachen mit Tesseract verwendet

How to use Multiple Languages with Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

Im Bereich der optischen Zeichenerkennung (OCR)-Technologie ist IronOCR ein angesehenes Tool, das für seine Fähigkeit bekannt ist, Text aus verschiedenen Sprachen und Schriften zu extrahieren. Wir verwenden die Tesseract-Engine, um ein zuverlässiges und benutzerfreundliches OCR-Tool bereitzustellen.

In diesem Artikel werden wir erkunden, wie IronOCR dank Tesseract effektiv mit Texten in mehreren Sprachen umgeht. Egal, ob Sie ein erfahrener Entwickler sind, der nach einer zuverlässigen mehrsprachigen OCR-Lösung sucht, oder einfach nur neugierig darauf sind, wie das alles funktioniert: Dieser Artikel wird Ihnen helfen, IronOCR und seine Tesseract-Engine besser zu verstehen und die Fähigkeiten dieses wertvollen Werkzeugs zu beleuchten.

Schnellstart: Verwendung von IronOCR zur Erkennung von Texten in mehreren Sprachen

Mit nur einer Zeile Code können Sie IronOCR mit einer Hauptsprache konfigurieren und Sekundärsprachen hinzufügen, um Text aus Dokumenten oder Bildern in mehreren Sprachen zu extrahieren. Dieses Setup ermöglicht es Entwicklern, schnell und ohne Aufwand mit mehrsprachigem OCR zu starten.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer
class="hsg-featured-snippet">

Minimaler Arbeitsablauf (5 Schritte)

  1. Laden Sie eine C#-Bibliothek zum Lesen mehrerer Sprachen herunter
  2. Bereiten Sie das PDF-Dokument und Bild zum Lesen vor
  3. Installieren Sie zusätzliche Sprachpakete über NuGet
  4. Verwenden Sie die AddSecondaryLanguage-Methode, um die gewünschten Sprachen zu aktivieren
  5. Setzen Sie die Language-Eigenschaft, um die Standardsprache zu ändern


Beispiel für das Lesen mehrsprachiger PDFs

IronOcr stellt etwa 125 Sprachpakete bereit; jedoch ist standardmäßig nur Englisch vorinstalliert. Der Rest kann von NuGet heruntergeladen werden. Sie können sich alle verfügbaren Sprachpakete hier ansehen.

Im folgenden Beispiel zeige ich Ihnen den Code zur Verwendung mehrerer Sprachen in IronOcr, um Text aus einer PDF-Datei zu extrahieren.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Mit der AddSecondaryLanguage-Methode können Sie beliebig viele Sekundärsprachen hinzufügen. Bitte beachten Sie jedoch, dass diese Hinzufügung die Geschwindigkeit und Leistung beeinflussen kann. Die Priorität der Sprache hängt von der Reihenfolge ab, in der sie hinzugefügt wird, wobei die zuerst hinzugefügte Sprache eine höhere Priorität hat.

Beispiel für das Lesen mehrsprachiger Bilder

Die Hauptsprache ist standardmäßig auf Englisch eingestellt. Um die Hauptsprache zu ändern, setzen Sie die Language-Eigenschaft auf die gewünschte Sprache. Anschließend können Sie auch Sekundärsprachen hinzufügen.

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Wenn Sie dies richtig machen, können Sie Ergebnisse wie die untenstehenden erwarten.

Russisch und Japanisch

Abschluss

Kurz gesagt: IronOCR, unterstützt von der leistungsstarken Tesseract-Engine, glänzt beim Extrahieren von Text aus Dokumenten in mehreren Sprachen. Es ist ein unverzichtbares Werkzeug für die Bewältigung der Komplexität des Lesens von Texten in vielen Sprachen und bietet Entwicklern und neugierigen Köpfen eine vielseitige Lösung. Ganz gleich, ob Sie PDFs mit Texten in verschiedenen Sprachen bearbeiten oder mit mehrsprachigen Inhalten in Bildern arbeiten: IronOCR vereinfacht die Aufgabe, Texte in mehreren Sprachen zu erkennen und zu extrahieren.

Häufig gestellte Fragen

Wie kann ich mehrere Sprachen in der OCR-Verarbeitung verwenden?

Um mehrere Sprachen in der OCR-Verarbeitung mit IronOCR zu verwenden, laden Sie die Bibliothek von NuGet herunter, bereiten Sie Ihr Dokument vor, installieren Sie zusätzliche Sprachpakete und verwenden Sie die AddSecondaryLanguage-Methode, um andere Sprachen zu aktivieren.

Wie extrahiere ich Text aus einem mehrsprachigen PDF?

Sie können Text aus einem mehrsprachigen PDF extrahieren, indem Sie die IronTesseract-OCR-Engine initialisieren, die Primärsprache setzen, sekundäre Sprachen mithilfe der AddSecondaryLanguage-Methode hinzufügen und das PDF verarbeiten, um dessen Inhalt zu lesen.

Ist es möglich, Text in mehreren Sprachen innerhalb eines Bildes zu erkennen?

Ja, mit IronOCR können Sie Text in mehreren Sprachen innerhalb eines Bildes erkennen, indem Sie die Primärsprache setzen und sekundäre Sprachen zur OCR-Engine hinzufügen, bevor Sie das Bild verarbeiten.

Wie wirkt sich das Hinzufügen mehrerer Sprachen auf die OCR-Leistung aus?

Das Hinzufügen mehrerer Sprachen in IronOCR kann die Geschwindigkeit und Leistung des OCR-Prozesses beeinflussen. Die Reihenfolge der hinzugefügten Sprachen bestimmt ihre Priorität, wobei die zuerst hinzugefügte Sprache eine höhere Priorität hat.

Wie kann ich die Standardsprache in IronOCR ändern?

Sie können die Standardsprache in IronOCR ändern, indem Sie die Language-Eigenschaft auf die gewünschte Sprache einstellen, bevor Sie Ihre Dokumente oder Bilder verarbeiten.

Wie viele Sprachpakete unterstützt IronOCR?

IronOCR unterstützt etwa 125 Sprachpakete, obwohl standardmäßig nur das englische Sprachpaket installiert ist. Zusätzliche Sprachpakete können über NuGet heruntergeladen werden.

Wie installiere ich zusätzliche Sprachpakete in IronOCR?

Um zusätzliche Sprachpakete in IronOCR zu installieren, verwenden Sie den NuGet-Paket-Manager, um die gewünschten Sprachpakete herunterzuladen und in Ihr Projekt einzubinden.

Kann IronOCR Text in Sprachen mit unterschiedlichen Schriftsystemen lesen?

Ja, IronOCR kann Text in verschiedenen Sprachen mit unterschiedlichen Schriftsystemen lesen, indem die Tesseract-Engine verwendet und relevante Sprachpakete aktiviert werden.

Was ist der Vorteil der Verwendung von IronOCR für mehrsprachige Inhalte?

IronOCR bietet eine vielseitige Lösung zur Erkennung und Extraktion von Text aus mehrsprachigen Inhalten, was es ideal für Entwickler macht, die mit Dokumenten oder Bildern mit Text in mehreren Sprachen arbeiten.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen
Rezensiert von
Jeff Fritz
Jeffrey T. Fritz
Principal Program Manager - .NET Community Team
Jeff ist außerdem Principal Program Manager für das .NET- und Visual Studio-Team. Er ist der ausführende Produzent der .NET Conf Virtual Conference Series und moderiert ‚Fritz and Friends‘, einen Livestream für Entwickler, der zweimal wöchentlich ausgestrahlt wird. Dort spricht er über Technik und schreibt gemeinsam mit den Zuschauern Code. Jeff schreibt Workshops, Präsentationen und plant Inhalte für die größten Microsoft-Entwicklerveranstaltungen, einschließlich Microsoft Build, Microsoft Ignite, .NET Conf und dem Microsoft MVP Summit.
Bereit anzufangen?
Nuget Downloads 5,044,537 | Version: 2025.11 gerade veröffentlicht