Tesseract 5 for .NET

デジタル文書が現代の企業や国際ビジネスで標準となっている中で、国際言語を描写し抽出するOCRエンジンを持つことは、文書を操作する上で成功の鍵となる要素です。

Tesseract 5は、その時点であらゆる言語で最も先進的なライブラリとされています。しかし、いくつか注意点があります。実装が容易ではなく、導入のハードルが高いため、使いにくいと考えられる場合があります。

しかし、IronOCRはそのギャップを埋め、初心者からベテランまでの開発者が単純なライブラリでTesseract 5を利用できるようにします。 さらに、IronOCRは、.NET Framework、Standard、Core、Xamarin、Monoとの互換性を持つ、Tesseract 5 OCR用の知られている唯一の.NETライブラリです。

このリンクからプロジェクトファイルをダウンロードできますリンク.

この行は、IronOCRライブラリによって提供されるクラスであるIronTesseractのインスタンスを初期化します。 新しいオブジェクトであるocrTesseractは、光学文字認識を行います。(OCR (光学式文字認識))画像上に。

次に、OCR処理のための画像または画像を保持するためにOcrInputオブジェクト、ocrInputが作成されます。 using キーワードを使用すると、必要がなくなった場合に ocrInput が自動的に破棄され、リソースが節約されます。

この行は、"images\image.png" にある画像ファイルを ocrInput にロードします。 この画像がOCR処理の対象になります。

ここで、OCR操作が実行されます。 ocrTesseractのReadメソッドはocrInputに読み込まれた画像を処理し、認識されたテキストを含むOcrResultオブジェクト、ocrResultを返します。

最後に、この行は、ocrResultのTextプロパティにアクセスすることによってコンソールに抽出されたテキストを印刷します。 クリックして、例、サンプルコード、およびファイルを含むハウツーガイドをご覧ください。