カスタムOCR言語パック

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR (アイアンOCR)で使用するカスタム言語パックを作成するには?

カスタム言語パックを作成するには、フォントから新しいTesseract 4 LTSM言語ファイル/辞書をトレーニングする必要があります。

そのために必要な手順を説明したチュートリアルが、オンライン上にたくさんある。 そのプロセスは単純ではないが、ありがたいことにかなり文書化されている。

手始めとして、以下をお勧めする。 YouTubeチュートリアル から ガブリエル・ガルシア (無所属) とリンクしている。 GitHubリポジトリ:

完了すると、.traineddataファイルが出力される。

.traineddataファイルはIronOCR (アイアンOCR)で次のように参照できる:

ドク https://ironsoftware.com/csharp/ocr/languages/

using IronOcr; 

    var Ocr = new IronTesseract(); 
    Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata");  //<---your new font
    // Multiple fonts can be used.

    using (var Input = new OcrInput(@"images\image.png"))
    {    
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    }