自定义OCR语言包

This article was translated from English: Does it need improvement?
Translated
View the article in English

如何创建用于 IronOCR 的自定义语言包?

创建自定义语言包需要从字体中训练一个新的 Tesseract 4 LTSM 语言文件/字典。

网上有许多教程解释了创建语言包所需的步骤。这个过程并不简单,但值得庆幸的是,它有相当完善的记录。

作为一个好的开始,我们建议从以下内容开始 YouTube 教程加布里埃尔-加西亚 (无所属) 及其链接的 GitHub 存储库:

完成后,输出将是一个 .traineddata 文件。

然后可以在 IronOCR 中以如下方式引用 .traineddata 文件:

文件 https://ironsoftware.com/csharp/ocr/languages/

using IronOcr; 

    var Ocr = new IronTesseract(); 
    Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata");  //<---your new font
    // Multiple fonts can be used.

    using (var Input = new OcrInput(@"images\image.png"))
    {    
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    }