Tesseract詳細設定 OCR に関しては、ドキュメントからテキストを抽出する方法のオプションと柔軟性が不可欠です。 OCR の実行にはコストがかかるため、OCR を利用するアプリケーションがスケーラブルかつ効率的であることを保証するには、特定のドキュメントで使用するパフォーマンスと方法を制御できることが必要です。 IronTesseract は、開発者に調整できるさまざまなプロパティとオプションを提供します。 たとえば、特定の文字をブラックリストに登録したり、ドキュメント内のバーコードも読み取ったり、さらには OCR エンジンがページを読み取って潜在的なテキスト ブロックをスキャンする方法を指定したりしたい場合、これらすべてを IronTesseract クラスで実行できます。 ## Tesseract 5でIronOCRを使用するための5ステップガイド `var ocrTesseract = new IronTesseract();` `ocrTesseract.Language = OcrLanguage.EnglishBest;` `ocrTesseract.Configuration.ReadBarCodes = false;`. `ocrTesseract.Configuration.BlackListCharacters = "`ë|^";`. `ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"]=false;`。 IronTesseract クラスを初期化した後、すぐに変更できる重要なオプションがいくつかあります。 最初に設定するプロパティは Language です。 デフォルトでは、言語は英語です。 ただし、IronTesseract は最大 125 の言語をサポートし、UseMultipleLanguages メソッドを使用すると複数の言語も許可されます。 詳細については、こちらを参照してください。 2 番目に設定するプロパティは、TesseractConfiguration クラスです。 このクラスを使用すると、Tesseract エンジンがドキュメントをスキャンして潜在的なテキスト ブロックを検出する方法を変更できます。 まず、言語を OcrLanguage.EnglishBest に割り当てて、Tesseract エンジンの言語を変更します。 このバリエーションは、OCR を使用した形状認識戦略である LSTM と OEM を組み合わせたものです。 これら 2 つの戦略を組み合わせることで、OCR はより正確な結果を生成できます。 その後、OCR プロセス中にバーコードを読み取らないように、ReadBarCodes を false に設定します。 また、ドキュメント上の特定の文字をブラックリストに登録することで、抽出する文字をさらにカスタマイズして指定します。 この例では、バッククォート、アクセント、またはキャレットを含むテキストの抽出を避けるために、文字をブラックリストに登録します。 最後に、TesseractVariables["tessedit_parallelize"] を false に設定して、並列処理を一時的に無効にします。 この最後の機能は、Tesseractエンジンに直接接続できるため、非常に強力です。開発者がOCR実行時のTesseractエンジンの動作をさらにカスタマイズできるようにするTesseractVariablesの完全なリストを以下に示します。 IronTesseract のその他の構成オプションを調べる 関連ドキュメントリンク Githubで見る 関連チュートリアル 関連ハウツーガイド クラスドキュメンテーション OCR言語パック IronOCR DLLをダウンロード このページの問題を報告する 準備はできましたか? Nuget ダウンロード 5,525,971 | バージョン: 2026.3 リリース 無料トライアル NuGet 無料版 総ダウンロード数: 5,525,971 ライセンスを見る まだスクロールしていますか? すぐに証拠が欲しいですか? PM > Install-Package IronOcr サンプルを実行 あなたの画像が検索可能なテキストになるのをご覧ください。 NuGet 無料版 総ダウンロード数: 5,525,971 ライセンスを見る