Wie man mehrere Sprachen mit Tesseract verwendet
Im Bereich der optischen Zeichenerkennung(OCR) technologie ist IronOCR ein angesehenes Tool, das für seine Fähigkeit bekannt ist, Text aus verschiedenen Sprachen und Schriften zu extrahieren. Wir verwenden die Tesseract-Engine, um ein zuverlässiges und benutzerfreundliches OCR-Tool bereitzustellen.
In diesem Artikel zeigen wir Ihnen, wie IronOCR dank Tesseract Text in mehreren Sprachen effektiv verarbeitet. Ganz gleich, ob Sie ein erfahrener Entwickler sind, der eine zuverlässige mehrsprachige OCR-Lösung sucht, oder ob Sie einfach nur neugierig sind, wie das Ganze funktioniert, dieser Artikel wird Ihnen helfen, IronOCR und seine Tesseract-Engine zu verstehen und die Möglichkeiten dieses unschätzbaren Tools zu beleuchten
Legen Sie los mit IronOCR
Beginnen Sie noch heute mit der Verwendung von IronOCR in Ihrem Projekt mit einer kostenlosen Testversion.
Wie man mehrere Sprachen mit Tesseract verwendet
- Download einer C#-Bibliothek zum Lesen mehrerer Sprachen
- Das PDF-Dokument und das Bild zum Lesen vorbereiten
- Zusätzliches Sprachpaket über NuGet installieren
- Verwenden Sie die
AddSecondaryLanguage
methode, um die gewünschten Sprachen zu aktivieren - Setzen Sie die Sprache eigenschaft, um die Standardsprache zu ändern
Mehrsprachiges PDF-Beispiel lesen
IronOCR stellt etwa 125 Sprachpakete zur Verfügung, allerdings ist nur Englisch standardmäßig installiert, der Rest kann von NuGet heruntergeladen werden. Sie können sich alle verfügbarensprachpakete hier..
Im folgenden Beispiel zeige ich Ihnen den Code für die Verwendung mehrerer Sprachen in IronOcr, um Text aus einer PDF-Datei zu extrahieren.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
Mit der Methode AddSecondaryLanguage
können Sie eine beliebige Anzahl von Sekundärsprachen hinzufügen. Bitte beachten Sie jedoch, dass dieser Zusatz die Geschwindigkeit und Leistung beeinträchtigen kann. Die Priorität der Sprache hängt von der Reihenfolge ab, in der sie hinzugefügt wird, wobei die zuerst hinzugefügte Sprache eine höhere Priorität hat.
Beispiel für ein mehrsprachiges Bild lesen
Die primäre Sprache ist standardmäßig auf Englisch eingestellt. Um die primäre Sprache zu ändern, setzen Sie die Eigenschaft Language auf die gewünschte Sprache. Später können Sie auch weitere Sprachen hinzufügen.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
Wenn Sie dies richtig machen, können Sie Ergebnisse wie die folgenden erwarten.
Schlussfolgerung
Kurz gesagt, IronOCR, unterstützt durch die leistungsstarke Tesseract-Engine, zeichnet sich durch die Extraktion von Text aus Dokumenten in mehreren Sprachen aus. Es ist ein unverzichtbares Werkzeug, um die Komplexität des Lesens von Text in vielen Sprachen zu bewältigen und bietet Entwicklern und Neugierigen eine vielseitige Lösung. Ganz gleich, ob Sie PDFs mit Text in verschiedenen Sprachen verarbeiten oder mit mehrsprachigen Inhalten in Bildern arbeiten, IronOCR vereinfacht die Aufgabe der Erkennung und Extraktion von Text in mehreren Sprachen.