Tesseract詳細設定
OCR に関しては、ドキュメントからテキストを抽出する方法のオプションと柔軟性が不可欠です。 OCR の実行にはコストがかかるため、OCR を利用するアプリケーションがスケーラブルかつ効率的であることを保証するには、特定のドキュメントで使用するパフォーマンスと方法を制御できることが必要です。
IronTesseract は、開発者が自由に試行錯誤できるさまざまなプロパティやオプションを提供します。 例えば、特定の文字をブラックリストに登録したい場合や、ドキュメント内のBARCODEも読み取りたい場合、あるいはOCRエンジンがページを読み取り、テキストのブロックを検出する方法を指定したい場合でも、IronTesseractクラスを使えば、これらすべてが可能になります。
IronOCRとTesseract 5を使用するための5段階のガイド
var ocrTesseract = new IronTesseract();ocrTesseract.Language = OcrLanguage.EnglishBest;ocrTesseract.Configuration.ReadBarCodes = false;.ocrTesseract.Configuration.BlackListCharacters = "`ë|^";.ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"]=false;。
IronTesseract クラスを初期化した後、すぐに利用可能になる重要なオプションがいくつかあり、これらを変更したいと考えています。 最初に設定するプロパティは Language です。 デフォルトでは、言語は英語です。 ただし、UseMultipleLanguagesメソッドを使用すれば複数言語の処理も可能です。 詳細については、こちらを参照してください。
次に設定するプロパティは、TesseractConfigurationクラスです。 このクラスを使用すると、Tesseract エンジンがドキュメントをスキャンして潜在的なテキスト ブロックを検出する方法を変更できます。
- まず、
OcrLanguage.EnglishBestに言語を割り当てることで、Tesseract Engineの言語設定を変更します。 このバリエーションは、OCR を使用した形状認識戦略であるLSTMとOEMを組み合わせています。 これら 2 つの戦略を組み合わせることで、OCR はより正確な結果を生成できます。 - その後、OCR処理中にBARCODEが読み取られないように、
ReadBarCodesをfalseに設定します。
また、ドキュメント上の特定の文字をブラックリストに登録することで、抽出する文字をさらにカスタマイズして指定します。 この例では、バッククォート、アクセント、またはキャレットを含むテキストの抽出を避けるために、文字をブラックリストに登録します。 最後に、当面の間並列処理を無効にするため、TesseractVariables["tessedit_parallelize"]をfalseに設定しました。 この最後の機能は、Tesseract Engineに直接指示を出せるため、非常に強力です。以下は、OCR実行時に開発者がTesseract Engineの動作をさらにカスタマイズできるようにするTesseractVariablesの完全なリストです。

