自定义OCR语言包
如何创建用于 IronOCR 的自定义语言包?
创建自定义语言包需要从字体中训练一个新的 Tesseract 4 LTSM 语言文件/字典。
网上有许多教程解释了创建语言包所需的步骤。这个过程并不简单,但值得庆幸的是,它有相当完善的记录。
作为一个好的开始,我们建议从以下内容开始 YouTube 教程 从 加布里埃尔-加西亚 (无所属) 及其链接的 GitHub 存储库:
完成后,输出将是一个 .traineddata 文件。
然后可以在 IronOCR 中以如下方式引用 .traineddata 文件:
文件 https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}