使用 IronOCR 自定义 OCR 语言包
This article was translated from English: Does it need improvement?
TranslatedView the article in English
如何为IronOCR创建自定义语言包?
创建自定义语言包需要从字体中训练一个新的 Tesseract 4 LTSM 语言文件/字典。
网上有许多教程可以解释完成这些步骤所需的方法。 这个过程不简单,但幸运的是文档记录得相当完善。
作为一个好的起点,我们建议这个YouTube 教程从加布里埃尔-加西亚 (无所属)及其链接的GitHub 存储库:
一旦完成,输出将是一个.traineddata文件。
可以在IronOCR中按如下方式引用.traineddata文件:
Doc: 文档https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}