Tesseract詳細設定

OCR に関しては、ドキュメントからテキストを抽出する方法のオプションと柔軟性が不可欠です。 OCR の実行にはコストがかかるため、OCR を利用するアプリケーションがスケーラブルかつ効率的であることを保証するには、特定のドキュメントで使用するパフォーマンスと方法を制御できることが必要です。

IronTesseract は、開発者に調整できるさまざまなプロパティとオプションを提供します。 たとえば、特定の文字をブラックリストに登録したり、ドキュメント内のバーコードも読み取ったり、さらには OCR エンジンがページを読み取って潜在的なテキスト ブロックをスキャンする方法を指定したりしたい場合、 IronTesseractクラスを使用してこれらすべてとその他の操作を実行できます。

IronTesseractクラスを初期化した後、すぐに変更できる重要なオプションがいくつかあります。 最初に設定するプロパティはLanguageです。 デフォルトでは、言語は英語です。 ただし、 IronTesseract最大 125 の言語をサポートし、 UseMultipleLanguagesメソッドを使用して複数の言語を許可することもできます。 詳細については、こちらを参照してください。

2 番目に設定するプロパティは、 TesseractConfigurationクラスです。 このクラスを使用すると、Tesseract エンジンがドキュメントをスキャンして潜在的なテキスト ブロックを検出する方法を変更できます。

  • まず、言語をOcrLanguage.EnglishBestに割り当てて、Tesseract エンジンの言語を変更します。 このバリエーションは、OCR を使用した形状認識戦略である LSTM と OEM を組み合わせたものです。 これら 2 つの戦略を組み合わせることで、OCR はより正確な結果を生成できます。
  • その後、OCR プロセス中にバーコードを読み取らないように、 ReadBarCodesを false に設定します。

また、ドキュメント上の特定の文字をブラックリストに登録することで、抽出する文字をさらにカスタマイズして指定します。 この例では、バッククォート、アクセント、またはキャレットを含むテキストの抽出を避けるために、文字をブラックリストに登録します。 最後に、 TesseractVariables["tessedit_parallelize"]を false に設定して、並列処理を一時的に無効にします。 この最後の機能は、Tesseractエンジンに直接アクセスするため、非常に強力です。開発者がOCR実行時のTesseractエンジンの動作をさらにカスタマイズできるTesseractVariablesの完全なリストを以下に示します。

IronTesseract のその他の構成オプションを調べる

準備はできましたか?
Nuget ダウンロード 5,167,857 | Version: 2025.11 リリース