Benutzerdefinierte Sprache mit Tesseract in C

Aktualisiert:7. Mai 2026

Translated

View the article in English

IronOCR ermöglicht OCR für benutzerdefinierte Sprachen, spezialisierte Schriften oder Codes, indem Tesseract .traineddata Dateien über die UseCustomTesseractLanguageFile Methode geladen werden, sodass Sie Text aus jedem benutzerdefinierten Sprachmodell extrahieren können.

Schnellstart: Benutzerdefinierte Sprache für OCR laden

Installieren Sie IronOCR mit NuGet Package Manager
PM > Install-Package IronOcr

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

using IronOcr;

// Initialize OCR engine
var ocr = new IronTesseract();

// Load custom language file
ocr.UseCustomTesseractLanguageFile("custom.traineddata");

// Process document
using var input = new OcrInput();
input.LoadImage("document.png");

// Extract text
var result = ocr.Read(input);
Console.WriteLine(result.Text);

Bereitstellen zum Testen in Ihrer Live-Umgebung

Beginnen Sie noch heute, IronOCR in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion

Installieren Sie IronOcr über den NuGet-Paket-Manager
Laden Sie Ihre benutzerdefinierte .traineddata Datei mit UseCustomTesseractLanguageFile
Erstellen Sie ein OcrInput und laden Sie Ihr Dokument
Rufen Sie Read() auf, um Text in Ihrer benutzerdefinierten Sprache zu extrahieren
Speichern oder verarbeiten Sie den extrahierten Text

Die optische Zeichenerkennung (OCR) erfordert manchmal den Umgang mit benutzerdefinierten Sprachen, speziellen Skripten oder Chiffren. Um ein Eingabebild mit einer benutzerdefinierten Sprache zu lesen, müssen der Tesseract-Engine Trainingsdaten für diese spezifische Sprache bereitgestellt werden. Diese Daten werden in einer speziellen .traineddata Datei gespeichert.

Während der komplexe Prozess der Erstellung (des Trainings) dieser Datei mit den eigenen Tools von Tesseract durchgeführt wird, unterstützt IronOCR die Verwendung dieser benutzerdefinierten Sprachdateien vollständig. Dies ermöglicht es Ihnen, Ihr trainiertes Modell anzuwenden, um Texte aus beliebigen Eingaben zu entschlüsseln und zu lesen. Diese Anleitung zeigt, wie man eine benutzerdefinierte .traineddata Datei mit IronOCR lädt und verwendet.

Wie man benutzerdefinierte Sprachen mit Tesseract verwendet

Laden Sie eine C#-Bibliothek zum Lesen einer benutzerdefinierten Sprache herunter
Initialisieren Sie die OCR-Engine
Laden Sie die benutzerdefinierten Sprachtrainingsdaten mit UseCustomTesseractLanguageFile
Laden Sie das Eingabebild mit LoadImage
Lesen und extrahieren Sie das Bild der benutzerdefinierten Spracheingabe mit Lesen

Wie implementiere ich benutzerdefinierte Sprach-OCR mit Tesseract?

Um eine benutzerdefinierte Sprache mit Tesseract zu verwenden, laden Sie zuerst Ihre .traineddata Datei, indem Sie die UseCustomTesseractLanguageFile Methode aufrufen. Dies ist ein unerlässlicher Schritt, da diese Datei alle Trainingsdaten enthält, die es Tesseract ermöglichen, die einzigartigen Zeichen der benutzerdefinierten Sprache zu erkennen.

Die Unterstützung benutzerdefinierter Sprachen in IronOCR geht über die Standardsprachen hinaus. Unabhängig davon, ob Sie mit historischen Skripten, erfundenen Sprachen oder speziellen Notationssystemen arbeiten, gilt derselbe Prozess. Für Projekte, die mehrere Sprachen erfordern, lesen Sie unseren Leitfaden zum Lesen mehrerer Sprachen oder informieren Sie sich über die 125 internationalen OCR-Sprachen, die von Haus aus unterstützt werden.

Als Nächstes laden Sie Ihr Eingabedokument wie bei einem normalen OCR-Vorgang. Wir laden ein PDF, das Absätze in einer benutzerdefinierten Sprache enthält, mit LoadPdf. IronOCR unterstützt verschiedene Eingabeformate, darunter Bilder (jpg, png, gif, tiff, bmp) und PDFs.

Verwenden Sie schließlich die Read Methode, um den Text aus der Eingabe zu extrahieren. Das Ergebnis kann dann auf der Konsole ausgedruckt oder in einer Textdatei zum Nachschlagen gespeichert werden.

Welche Trainingsdaten benötige ich für benutzerdefinierte Sprachen?

Als Eingabe verwenden wir diese PDF-Beispieldatei, die Text in unserer benutzerdefinierten Sprache enthält.

Wir werden diese benutzerdefinierte Sprachdatei .traindata für unser Beispiel verwenden.

Die Qualität und Vollständigkeit Ihrer Trainingsdaten wirken sich direkt auf die OCR-Genauigkeit aus. Bei der Vorbereitung benutzerdefinierter Sprachtrainingsdaten:

Zeichenabdeckung: Stellen Sie sicher, dass Ihre Trainingsdaten alle Zeichen und Symbole enthalten
Schriftartenvariationen: Beziehen Sie mehrere Schriftstile ein, wenn Ihre Dokumente in der Typografie variieren
Bildqualität: Trainieren Sie mit Bildern, die denen ähneln, die Sie in der Produktion verarbeiten werden
Kontextmuster: Beziehen Sie häufige Wortkombinationen und Phrasen ein

Erweiterte Konfigurationsoptionen finden Sie in unserem Detaillierten Konfigurationsleitfaden für Tesseract.

Wie kann ich benutzerdefinierte Sprachdokumente laden und verarbeiten?

:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs

using IronOcr;
using System;
using System.IO;

var ocrTesseract = new IronTesseract();

// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");

using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");

var ocrResult = ocrTesseract.Read(ocrInput);

// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");

// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);

Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");

Imports IronOcr
Imports System
Imports System.IO

Dim ocrTesseract As New IronTesseract()

' Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata")

Using ocrInput As New OcrInput()
    ' Load the PDF containing text in the custom language
    ocrInput.LoadPdf("custom.pdf")

    Dim ocrResult = ocrTesseract.Read(ocrInput)

    ' Print text to the console
    Console.WriteLine("--- OCR Result ---")
    Console.WriteLine(ocrResult.Text)
    Console.WriteLine("------------------")

    ' Pipe text to a .txt file
    Dim outputFilePath As String = "ocr_output.txt"
    File.WriteAllText(outputFilePath, ocrResult.Text)

    Console.WriteLine(vbCrLf & "Successfully saved text to " & outputFilePath)
End Using

$vbLabelText $csharpLabel

Der obige Code veranschaulicht den grundlegenden Arbeitsablauf für benutzerdefinierte Sprach-OCR. Für komplexere Szenarien sollten Sie diese Erweiterungen in Betracht ziehen:

Leistungsoptimierung: Für große Dokumente oder Stapelverarbeitung implementieren Sie Multithreading und async-Unterstützung, um die Leistung zu verbessern.

Bildvorverarbeitung: Wenn Ihre Ausgangsdokumente Qualitätsprobleme aufweisen, wenden Sie Bildkorrekturfilter vor der OCR-Verarbeitung an. Der Filter-Assistent kann Ihnen helfen, die optimalen Vorverarbeitungseinstellungen zu finden.

Regionsspezifische OCR: Bei Dokumenten mit gemischtem Inhalt können Sie die OCR-Region eines Bildes-Technik verwenden, um sich auf bestimmte Bereiche zu konzentrieren, die Ihre eigene Sprache enthalten.

Welche Ergebnisse kann ich von Custom Language OCR erwarten?

Diese Ausgabe zeigt das Ergebnis unseres benutzerdefinierten Sprachmodells. Durch die Bereitstellung der richtigen Trainingsdaten konnte IronOCR den Text erfolgreich entschlüsseln, und das Ergebnis ist in einfachem Englisch. Außerdem ist dies die Ausgabe, die durch den Code erzeugt wird.

Die Genauigkeit der OCR für benutzerdefinierte Sprachen hängt von mehreren Faktoren ab:

Trainingsdatenqualität: Bessere Trainingsdaten führen zu besseren Ergebnissen
Dokumentenkonsistenz: Dokumente, die mit den Trainingsdaten übereinstimmen, erzielen die besten Ergebnisse
Bildauflösung: Höhere DPI-Bilder liefern genauere Ergebnisse - siehe unseren Leitfaden zu DPI-Einstellungen

Best Practices für die Implementierung benutzerdefinierter Sprachen

Bei der Implementierung von OCR für benutzerdefinierte Sprachen in Produktionsumgebungen sollten Sie diese bewährten Verfahren berücksichtigen:

Fehlerbehandlung und Validierung: Stellen Sie immer sicher, dass Ihre .traineddata Datei existiert und zugänglich ist, bevor Sie versuchen, sie zu laden. Implementierung einer angemessenen Fehlerbehandlung für Fälle, in denen die benutzerdefinierte Sprachdatei fehlt oder beschädigt ist.

Leistungsoptimierung: Benutzerdefinierte Sprachmodelle können größer sein als Standard-Sprachpakete. Für optimale Leistung:

Cachen Sie das geladene Sprachmodell, wenn Sie mehrere Dokumente verarbeiten
Verwenden Sie Fortschrittsüberwachung, um lang andauernde OCR-Vorgänge zu überwachen
Erwägen Sie die Implementierung von Timeouts für die Verarbeitung großer Dokumente

Kombinieren mit Standardsprachen: Wenn Ihre Dokumente sowohl benutzerdefinierte als auch Standardsprachen enthalten, können Sie mehrere Sprachen gleichzeitig laden. Dies ist besonders nützlich für Dokumente mit gemischtem Inhalt.

Prüfung und Validierung: Einrichtung eines Testrahmens zur Validierung der OCR-Genauigkeit:

Erstellen Sie einen Testdatensatz mit bekannten Ergebnissen
Verwenden Sie Ergebniskonfidenz-Metriken, um die Erkennungsqualität zu bewerten
Implementierung von Highlight-Texten als Bilder für visuelles Debugging

Fortgeschrittene Anwendungsfälle

OCR für benutzerdefinierte Sprachen eröffnet zahlreiche Möglichkeiten:

Bewahrung historischer Dokumente: Digitalisieren Sie alte Manuskripte oder Texte, die in veralteten Schriften geschrieben sind Spezialisierte Notationssysteme: Verarbeiten Sie mathematische Gleichungen, musikalische Notation oder technische Diagramme - siehe unseren Leitfaden zur Fehlerbehebung bei Gleichungen Sicherheitsanwendungen: Dekodieren proprietärer Verschlüsselungssysteme oder Chiffren Zugänglichkeit: Konvertierung spezieller Braille-Schrift oder taktiler Schriftsysteme in Standardtext

Für fortgeschrittenere Szenarien können Sie unsere umfassenden Codebeispiele lesen, die verschiedene IronOCR-Funktionen mit Tesseract 5 zeigen.

Häufig gestellte Fragen

Wie führe ich OCR für Dokumente mit benutzerdefinierten Sprachen oder Skripten durch?

IronOCR ermöglicht benutzerdefinierte Sprach-OCR durch das Laden von Tesseract .traineddata-Dateien mit der Methode UseCustomTesseractLanguageFile. So können Sie Text aus jedem beliebigen, individuell trainierten Sprachmodell extrahieren, einschließlich spezieller Skripte, historischer Texte oder Chiffren.

Welches Dateiformat wird für die benutzerdefinierte Spracherkennung benötigt?

IronOCR benötigt eine .traineddata-Datei, die die Trainingsdaten für Ihre benutzerdefinierte Sprache enthält. Diese Datei wird mit der Methode UseCustomTesseractLanguageFile geladen und enthält alle notwendigen Informationen, damit Tesseract die einzigartigen Zeichen Ihrer benutzerdefinierten Sprache erkennen kann.

Kann ich mehrere benutzerdefinierte Sprachen in einem einzigen OCR-Vorgang verwenden?

Ja, IronOCR unterstützt die Erkennung mehrerer Sprachen. Sie können mehrere benutzerdefinierte Sprachdateien laden oder benutzerdefinierte Sprachen mit einer der 125 internationalen Sprachen kombinieren, die von IronOCR standardmäßig unterstützt werden.

Welche Arten von benutzerdefinierten Skripten können erkannt werden?

IronOCR kann jede benutzerdefinierte Schrift erkennen, die ordnungsgemäß in einer .traineddata-Datei trainiert wurde, einschließlich historischer Schriften, erfundener Sprachen, spezieller Notationssysteme und Chiffren. Die Flexibilität erstreckt sich auf jedes Schriftsystem, das mit den Werkzeugen von Tesseract trainiert werden kann.

Wie implementiere ich OCR für benutzerdefinierte Sprachen in meiner C#-Anwendung?

Um benutzerdefinierte Sprach-OCR mit IronOCR zu implementieren: 1) Initialisieren Sie eine IronTesseract-Instanz, 2) Laden Sie Ihre benutzerdefinierte .traineddata-Datei mit UseCustomTesseractLanguageFile, 3) Erstellen Sie ein OcrInput-Objekt und laden Sie Ihr Dokument, 4) Rufen Sie die Read()-Methode auf, um Text zu extrahieren, und 5) Verarbeiten Sie den extrahierten Text nach Bedarf.

Unterstützt IronOCR mehrere Sprachen?

IronOCR unterstützt mehrere Sprachen und ist damit ein vielseitiges Werkzeug für globale Anwendungen, die Texterkennung in verschiedenen Sprachen erfordern.

Kann IronOCR in bestehende Anwendungen integriert werden?

IronOCR ist darauf ausgelegt, leicht in bestehende Anwendungen mithilfe von C# integriert zu werden, sodass Entwickler OCR-Funktionalität mit minimalem Aufwand zu ihrer Software hinzufügen können.

Was sind die Vorteile der Nutzung von IronOCR für das Dokumentenmanagement?

Die Verwendung von IronOCR für das Dokumentenmanagement rationalisiert den Arbeitsablauf, indem gescannte Dokumente in durchsuchbare und bearbeitbare Texte umgewandelt werden, wodurch der Bedarf an manueller Dateneingabe reduziert und die Zugänglichkeit von Dokumenten verbessert wird.

Wie kann IronOCR die Datenqualität verbessern?

IronOCR verbessert die Datenqualität durch seine fortschrittlichen Erkennungsalgorithmen und Bildkorrekturfunktionen, die sicherstellen, dass der Textextraktionsprozess sowohl zuverlässig als auch genau ist.

Gibt es eine kostenlose Testversion von IronOCR?

Ja, Iron Software bietet eine kostenlose Testversion von IronOCR an, die es den Benutzern ermöglicht, die Funktionen und Fähigkeiten zu testen, bevor sie eine Kaufentscheidung treffen.

Curtis Chau

Jetzt mit dem Ingenieurteam chatten

Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Bereit anzufangen?

Nuget Downloads 6,151,372 | Version: 2026.7 gerade veröffentlicht

Lizenzen anzeigen

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.

Lizenzen anzeigen

Kunden-Highlight:

Entwickler im Rampenlicht:

Webinare:

Starten Sie die kostenlose 30-Tage-Testversion

Auf dieser Seite

Benutzerdefinierte Sprache mit Tesseract in C

Installieren Sie IronOCR mit NuGet Package Manager

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

Bereitstellen zum Testen in Ihrer Live-Umgebung

Wie man benutzerdefinierte Sprachen mit Tesseract verwendet

Wie implementiere ich benutzerdefinierte Sprach-OCR mit Tesseract?

Welche Trainingsdaten benötige ich für benutzerdefinierte Sprachen?

Wie kann ich benutzerdefinierte Sprachdokumente laden und verarbeiten?

Welche Ergebnisse kann ich von Custom Language OCR erwarten?

Best Practices für die Implementierung benutzerdefinierter Sprachen

Fortgeschrittene Anwendungsfälle

Häufig gestellte Fragen

Wie führe ich OCR für Dokumente mit benutzerdefinierten Sprachen oder Skripten durch?

Welches Dateiformat wird für die benutzerdefinierte Spracherkennung benötigt?

Kann ich mehrere benutzerdefinierte Sprachen in einem einzigen OCR-Vorgang verwenden?

Welche Arten von benutzerdefinierten Skripten können erkannt werden?

Wie implementiere ich OCR für benutzerdefinierte Sprachen in meiner C#-Anwendung?

Unterstützt IronOCR mehrere Sprachen?

Kann IronOCR in bestehende Anwendungen integriert werden?

Was sind die Vorteile der Nutzung von IronOCR für das Dokumentenmanagement?

Wie kann IronOCR die Datenqualität verbessern?

Gibt es eine kostenlose Testversion von IronOCR?

Scrollst du immer noch?

Ihr Lizenzschlüssel wurde in Ihren Posteingang geliefert

Ihre Demo-Anfrage ist eingegangen.

Iron-Support-Team

Starten Sie die kostenlose 30-Tage-Testversion

Auf dieser Seite

Benutzerdefinierte Sprache mit Tesseract in C

Installieren Sie IronOCR mit NuGet Package Manager

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

Bereitstellen zum Testen in Ihrer Live-Umgebung

Wie man benutzerdefinierte Sprachen mit Tesseract verwendet

Wie implementiere ich benutzerdefinierte Sprach-OCR mit Tesseract?

Welche Trainingsdaten benötige ich für benutzerdefinierte Sprachen?

Wie kann ich benutzerdefinierte Sprachdokumente laden und verarbeiten?

Welche Ergebnisse kann ich von Custom Language OCR erwarten?

Best Practices für die Implementierung benutzerdefinierter Sprachen

Fortgeschrittene Anwendungsfälle

Häufig gestellte Fragen

Wie führe ich OCR für Dokumente mit benutzerdefinierten Sprachen oder Skripten durch?

Welches Dateiformat wird für die benutzerdefinierte Spracherkennung benötigt?

Kann ich mehrere benutzerdefinierte Sprachen in einem einzigen OCR-Vorgang verwenden?

Welche Arten von benutzerdefinierten Skripten können erkannt werden?

Wie implementiere ich OCR für benutzerdefinierte Sprachen in meiner C#-Anwendung?

Unterstützt IronOCR mehrere Sprachen?

Kann IronOCR in bestehende Anwendungen integriert werden?

Was sind die Vorteile der Nutzung von IronOCR für das Dokumentenmanagement?

Wie kann IronOCR die Datenqualität verbessern?

Gibt es eine kostenlose Testversion von IronOCR?

Scrollst du immer noch?

Nächster Schritt: Kostenlosen 30-Tage-Test starten

Thank You

Nächster Schritt: Kostenlosen 30-Tage-Test starten

Möchten Sie IronSuite KOSTENLOS in einem Live-Projekt einsetzen?

DLL-Download

Ihr Lizenzschlüssel wurde in Ihren Posteingang geliefert

Ihre Demo-Anfrage ist eingegangen.

Von Millionen von Ingenieur*innen weltweit vertraut

Iron-Support-Team