自訂OCR語言包
如何為 IronOCR 創建自定義語言包?
創建自定義語言包需要從字體訓練一個新的 Tesseract 4 LTSM 語言文件/字典。
在線有許多教程解釋了這個過程所需的步驟。這個過程並不簡單,但幸運的是,有相當詳細的文檔。
作為一個好的起點,我們建議這個 YouTube 教學 從 加布里埃爾·加西亞 (無關聯) 和它們相連 GitHub 檔案庫一旦完成,輸出將是一個 .traineddata 文件。
然後可以在 IronOCR 中引用 .traineddata 文件,如下所示:
Doc: https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}