在IronOCR中使用自定義OCR語言包
2022年1月19日
已更新 2024年10月20日
This article was translated from English: Does it need improvement?
TranslatedView the article in English
如何為IronOCR創建自訂語言包?
創建自定義語言包需要從一種字體訓練新的 Tesseract 4 LTSM 語言文件/詞典。
網上有許多教程可解釈此操作所需的步驟。 這個過程並不簡單,但幸運的是有很完善的文件記載。
作為一個很好的起點,我們建議從這個YouTube 教學影片開始,由Gabriel Garcia(無關聯)製作,還有他們連結到的GitHub 存儲庫:
一旦完成,輸出將是一個.traineddata文件。
然後可以在IronOCR中參考.traineddata文件如下:
文档: https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}


