IronOCRでカスタムOCR言語パックを使用する
IronOCRで使用するカスタム言語パックを作成するには?
カスタム言語パックを作成するには、フォントから新しいTesseract 4 LTSM言語ファイル/辞書をトレーニングする必要があります。
そのために必要な手順を説明したチュートリアルが、オンライン上にたくさんある。 そのプロセスは単純ではないが、ありがたいことにかなり文書化されている。
最初に始めるのに良い場所として、Gabriel Garcia(無関係)からのYouTubeチュートリアルと、彼らがリンクしたGitHub リポジトリをお勧めします。
完了すると、.traineddataファイルが出力される。
.traineddataファイルはIronOCRで次のように参照できる:
ドキュメント: https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
