Tesseract詳細設定

OCRに関しては、文書からテキストを抽出する方法に関するオプションと柔軟性が不可欠です。 OCRの実行にはコストがかかるため、OCRを利用するアプリケーションがスケーラブルで効率的であることを保証するためには、特定の文書に使用するパフォーマンスとメソッドを制御できることが必要です。

IronTesseractは開発者に様々なプロパティとオプションを提供します。 例えば、特定の文字をブラックリストに入れたり、ドキュメント内のBarCodeを読み取ったり、あるいはOCRエンジンがどのようにページを読み取り、潜在的なテキストブロックをスキャンするかを指示したい場合、IronTesseractクラスがあれば、それ以上のことが可能です。

IronTesseractクラスを開始した後、修正したい重要なオプションがいくつかあります。 最初に設定するプロパティは、Languageです。 デフォルトでは、言語は英語です; しかし、IronTesseractは最大125の言語をサポートし、UseMultipleLanguagesメソッドで複数の言語を使用することもできます。 詳細については、こちらを参照してください。

2つ目のプロパティは、TesseractConfigurationクラスです。 このクラスでは、Tesseractエンジンがどのようにドキュメントをスキャンし、潜在的なテキストブロックを探し出すかを変更することができます。

  • まず、OcrLanguage.EnglishBestに言語を割り当てることで、Tesseract Engineの言語を変更します。 このバリエーションは、OCRを使った形状認識ストラテジーであるLSTMとOEMを組み合わせたものです; この2つの戦略を組み合わせることで、OCRはより正確な結果を得ることができます。
  • その後、ReadBarCodesをfalseに設定し、OCR処理中にバーコードを読み取らないようにします。

また、文書上の特定の文字をブラックリストに登録することで、抽出する文字をさらにカスタマイズして指定します; この例では、バックティック、アクセント記号、キャレットを含むテキストを抽出しないように、文字をブラックリストに入れています。 最後に、TesseractVariables["tessedit_parallelize"]をfalseに設定し、当面の間、並列処理を無効にします。 この最後の機能は、Tesseract Engineに直接話しかけることができるため、本当に強力な機能です。こちらTesseractVariablesの完全なリストであり、開発者はOCRを実行する際にTesseract Engineの動作をさらにカスタマイズすることができます。

Explore More IronTesseract 設定オプション.

準備はいいですか?
Nuget ダウンロード 5,044,537 | バージョン: 2025.11 ただ今リリースされました