Benutzerdefinierte OCR-Sprachpakete

This article was translated from English: Does it need improvement?
Translated
View the article in English

Wie erstellt man benutzerdefinierte Sprachpakete zur Verwendung in IronOCR?

Die Erstellung eines benutzerdefinierten Sprachpakets erfordert das Trainieren einer neuen Tesseract 4 LTSM-Sprachdatei / eines Wörterbuchs aus einer Schriftart.

Im Internet gibt es zahlreiche Anleitungen, in denen die dafür erforderlichen Schritte erläutert werden. Das Verfahren ist nicht einfach, aber zum Glück gut dokumentiert.

Als guten Ausgangspunkt empfehlen wir FolgendesYouTube-Tutorial vonGabriel Garcia (keine Zugehörigkeit) und die damit verbundenenGitHub-Repository:

Die Ausgabe ist dann eine .traineddata-Datei.

Die Datei .traineddata kann dann in IronOCR wie folgt referenziert werden:

Doc:https://ironsoftware.com/csharp/ocr/languages/

using IronOcr; 

    var Ocr = new IronTesseract(); 
    Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata");  //<---your new font
    // Multiple fonts can be used.

    using (var Input = new OcrInput(@"images\image.png"))
    {    
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    }