使用 IronOCR 自定义 OCR 语言包

This article was translated from English: Does it need improvement?
Translated
View the article in English

如何为IronOCR创建自定义语言包?

创建自定义语言包需要从字体中训练一个新的 Tesseract 4 LTSM 语言文件/字典。

网上有许多教程可以解释完成这些步骤所需的方法。 这个过程不简单,但幸运的是文档记录得相当完善。

作为一个好的起点,我们建议这个YouTube 教程加布里埃尔-加西亚 (无所属)及其链接的GitHub 存储库:

一旦完成,输出将是一个.traineddata文件。

可以在IronOCR中按如下方式引用.traineddata文件:

Doc: 文档https://ironsoftware.com/csharp/ocr/languages/

using IronOcr; 

    var Ocr = new IronTesseract(); 
    Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata");  //<---your new font
    // Multiple fonts can be used.

    using (var Input = new OcrInput(@"images\image.png"))
    {    
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    }