自訂OCR語言包

This article was translated from English: Does it need improvement?
Translated
View the article in English

如何為 IronOCR 創建自定義語言包?

創建自定義語言包需要從字體訓練一個新的 Tesseract 4 LTSM 語言文件/字典。

在線有許多教程解釋了這個過程所需的步驟。這個過程並不簡單,但幸運的是,有相當詳細的文檔。

作為一個好的起點,我們建議這個 YouTube 教學加布里埃爾·加西亞 (無關聯) 和它們相連 GitHub 檔案庫一旦完成,輸出將是一個 .traineddata 文件。

然後可以在 IronOCR 中引用 .traineddata 文件,如下所示:

Doc: https://ironsoftware.com/csharp/ocr/languages/

using IronOcr; 

    var Ocr = new IronTesseract(); 
    Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata");  //<---your new font
    // Multiple fonts can be used.

    using (var Input = new OcrInput(@"images\image.png"))
    {    
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    }