Wie man mehrere Sprachen mit Tesseract verwendet

This article was translated from English: Does it need improvement?
Translated
View the article in English

von Chipego Kalinda

Im Bereich der optischen Zeichenerkennung(OCR) technologie ist IronOCR ein angesehenes Tool, das für seine Fähigkeit bekannt ist, Text aus verschiedenen Sprachen und Schriften zu extrahieren. Wir verwenden die Tesseract-Engine, um ein zuverlässiges und benutzerfreundliches OCR-Tool bereitzustellen.

In diesem Artikel zeigen wir Ihnen, wie IronOCR dank Tesseract Text in mehreren Sprachen effektiv verarbeitet. Ganz gleich, ob Sie ein erfahrener Entwickler sind, der eine zuverlässige mehrsprachige OCR-Lösung sucht, oder ob Sie einfach nur neugierig sind, wie das Ganze funktioniert, dieser Artikel wird Ihnen helfen, IronOCR und seine Tesseract-Engine zu verstehen und die Möglichkeiten dieses unschätzbaren Tools zu beleuchten

Legen Sie los mit IronOCR

Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.

Erster Schritt:
green arrow pointer



Mehrsprachiges PDF-Beispiel lesen

IronOCR stellt etwa 125 Sprachpakete zur Verfügung, allerdings ist nur Englisch standardmäßig installiert, der Rest kann von NuGet heruntergeladen werden. Sie können sich alle verfügbarensprachpakete hier..

Im folgenden Beispiel zeige ich Ihnen den Code für die Verwendung mehrerer Sprachen in IronOcr, um Text aus einer PDF-Datei zu extrahieren.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

Mit der Methode AddSecondaryLanguage können Sie eine beliebige Anzahl von Sekundärsprachen hinzufügen. Bitte beachten Sie jedoch, dass dieser Zusatz die Geschwindigkeit und Leistung beeinträchtigen kann. Die Priorität der Sprache hängt von der Reihenfolge ab, in der sie hinzugefügt wird, wobei die zuerst hinzugefügte Sprache eine höhere Priorität hat.

Beispiel für ein mehrsprachiges Bild lesen

Die primäre Sprache ist standardmäßig auf Englisch eingestellt. Um die primäre Sprache zu ändern, setzen Sie die Eigenschaft Language auf die gewünschte Sprache. Später können Sie auch weitere Sprachen hinzufügen.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

Wenn Sie dies richtig machen, können Sie Ergebnisse wie die folgenden erwarten.

Russisch und Japanisch

Schlussfolgerung

Kurz gesagt, IronOCR, unterstützt durch die leistungsstarke Tesseract-Engine, zeichnet sich durch die Extraktion von Text aus Dokumenten in mehreren Sprachen aus. Es ist ein unverzichtbares Werkzeug, um die Komplexität des Lesens von Text in vielen Sprachen zu bewältigen und bietet Entwicklern und Neugierigen eine vielseitige Lösung. Ganz gleich, ob Sie PDFs mit Text in verschiedenen Sprachen verarbeiten oder mit mehrsprachigen Inhalten in Bildern arbeiten, IronOCR vereinfacht die Aufgabe der Erkennung und Extraktion von Text in mehreren Sprachen.

Chipego related to Schlussfolgerung

Chipego

Software-Ingenieur

Chipego hat eine natürliche Fähigkeit zum Zuhören, die ihm hilft, Kundenprobleme zu verstehen und intelligente Lösungen anzubieten. Er trat dem Iron Software-Team 2023 bei, nachdem er einen Bachelor of Science in Informationstechnologie erworben hatte. IronPDF und IronOCR sind die beiden Produkte, auf die sich Chipego konzentriert hat, aber sein Wissen über alle Produkte wächst täglich, da er neue Wege findet, Kunden zu unterstützen. Er genießt die Zusammenarbeit bei Iron Software, da Teammitglieder aus dem gesamten Unternehmen ihre unterschiedlichen Erfahrungen einbringen und so zu effektiven, innovativen Lösungen beitragen. Wenn Chipego nicht an seinem Schreibtisch sitzt, kann man ihn oft bei einem guten Buch oder beim Fußballspielen antreffen.