在IronOCR中使用自定義OCR語言包

This article was translated from English: Does it need improvement?
Translated
View the article in English

如何為IronOCR創建自訂語言包?

創建自定義語言包需要從一種字體訓練新的 Tesseract 4 LTSM 語言文件/詞典。

網上有許多教程可解釈此操作所需的步驟。 這個過程並不簡單,但幸運的是有很完善的文件記載。

作為一個很好的起點,我們建議從這個YouTube 教學影片開始,由Gabriel Garcia(無關聯)製作,還有他們連結到的GitHub 存儲庫

一旦完成,輸出將是一個.traineddata文件。

然後可以在IronOCR中參考.traineddata文件如下:

文档: https://ironsoftware.com/csharp/ocr/languages/

using IronOcr; 

    var Ocr = new IronTesseract(); 
    Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata");  //<---your new font
    // Multiple fonts can be used.

    using (var Input = new OcrInput(@"images\image.png"))
    {    
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    }