Verwendung benutzerdefinierter OCR-Sprachpakete mit IronOCR
Wie erstellt man benutzerdefinierte Sprachpakete zur Verwendung in IronOCR?
Die Erstellung eines benutzerdefinierten Sprachpakets erfordert das Trainieren einer neuen Tesseract 4 LTSM-Sprachdatei / eines Wörterbuchs aus einer Schriftart.
Im Internet gibt es zahlreiche Anleitungen, in denen die dafür erforderlichen Schritte erläutert werden. Das Verfahren ist nicht einfach, aber zum Glück gut dokumentiert.
Als guter Ausgangspunkt empfehlen wir dieses YouTube-Tutorial von Gabriel Garcia (keine Verbindung) und ihr verlinktes GitHub-Repository:
Die Ausgabe ist dann eine .traineddata-Datei.
Die Datei .traineddata kann dann in IronOCR wie folgt referenziert werden:
Dokument: https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}


