IronOCRでカスタムOCR言語パックを使用する
IronOCRで使用するカスタム言語パックを作成するには?
カスタム言語パックを作成するには、フォントから新しいTesseract 4 LTSM言語ファイル/辞書をトレーニングする必要があります。
そのために必要な手順を説明したチュートリアルが、オンライン上にたくさんある。 そのプロセスは単純ではないが、ありがたいことにかなり文書化されている。
手始めとして、以下をお勧めする。YouTubeチュートリアルからガブリエル・ガルシア (無所属)とリンクしている。GitHubリポジトリ:
完了すると、.traineddataファイルが出力される。
.traineddataファイルはIronOCRで次のように参照できる:
ドクhttps://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}