在IronOCR中使用自定義OCR語言包
This article was translated from English: Does it need improvement?
TranslatedView the article in English
如何為IronOCR創建自訂語言包?
創建自定義語言包需要從一種字體訓練新的 Tesseract 4 LTSM 語言文件/詞典。
網上有許多教程可解釈此操作所需的步驟。 這個過程並不簡單,但幸運的是有很完善的文件記載。
作為一個良好的開始,我們建議這个YouTube 教學從加布里埃爾·加西亞 (無關聯)和它們相連GitHub 檔案庫:
一旦完成,輸出將是一個.traineddata文件。
然後可以在IronOCR中參考.traineddata文件如下:
Doc: 文檔https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}