使用 IronOCR 自定义 OCR 语言包

This article was translated from English: Does it need improvement?
Translated
View the article in English

如何为IronOCR创建自定义语言包?

创建自定义语言包需要从字体中训练一个新的 Tesseract 4 LTSM 语言文件/字典。

网上有许多教程可以解释完成这些步骤所需的方法。 这个过程不简单,但幸运的是文档记录得相当完善。

作为一个好的起点,我们建议观看这个YouTube教程,由Gabriel Garcia(无关联)制作,并查看他们链接的GitHub存储库

一旦完成,输出将是一个.traineddata文件。

可以在IronOCR中按如下方式引用.traineddata文件:

文档:https://ironsoftware.com/csharp/ocr/languages/

using IronOcr; 

    var Ocr = new IronTesseract(); 
    Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata");  //<---your new font
    // Multiple fonts can be used.

    using (var Input = new OcrInput(@"images\image.png"))
    {    
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    }