PDFのOCRテキスト抽出 Tesseract は多くの画像フォーマットやPDFドキュメントを読み取ることができます。 この機能は、従来の無料のTesseractエンジンでは不可能です。 OcrInputは、スキャンの品質が悪い場合にPDFの特性を自動的に補正するオプションを提供します。 開発者は、PDF全体、ページの選択、または単一の切り取り領域を読むように指定することができます。 以下のようになります。 どのように C# で PDF ファイルを OCR するか? PDFファイルをOCRするC#ライブラリをダウンロードする。 PDFドキュメントを追加するには、AddPdfメソッドを使用します。 AddPdfPagesメソッドでPDF文書の特定のページを追加する。 追加されたPDFに対してOCRを実行するためにReadメソッドを利用する。 すべての QR コード値を Barcodes プロパティで表示します。OCR 結果を取得するために Text プロパティにアクセスします。 なぜIronOCRを画像やPDFのOCRテキスト抽出に使うのですか? Tesseract管理のためにIronOCRソリューションを選択することは、そのユニークな能力を考慮すれば当然の選択です: 1.IronOCR for PDF OCRテキスト抽出エンジンは、純粋な.NETですぐに動作します。 2.Tesseractをマシンにインストールする必要はありません。 3.最新のエンジンとの相性も抜群です:Tesseract 5(およびTesseract 4と3)。 4..NET Framework 4.5 +、.NET Standard 2 +、.NET Core 2、3、5のすべての.NETプロジェクトに対応しています! 5.他のオープンソースのTesseractsよりも精度とスピードが向上しています。 6.IronOCRはXamarin、Mono、Azure、Dockerの開発プラットフォームをサポートしています。 7.NuGetパッケージを使用して、複雑なTesseract辞書システムを管理することができます。 8.PDF、MultiFrame Tiff、およびすべての主要な画像ファイルから、追加操作なしでテキストを抽出できます。 9.テキスト抽出プロジェクトから最良の結果を得るために、低品質で歪んだ画像スキャンを修正することができます。 ## 低品質のスキャンがありますか? 問題ありません! IronOCRはOCRタスクに関しては、より高いレベルで際立っています。 現実には、類似製品の多くは、機械印刷された高解像度の完璧なテキストや画像でうまく動作するように作られているため、実際のアプリケーションでは不正確になったり、失敗したりします。 しかし、IronOCRの場合はそうではありません。 IronOCRは不完全な文書を修正するのに優れています。 斜めになったスキャン画像をまっすぐにしたり、低画質の写真を検索可能なPDF文書や画像になるように補正したりすることができます。 これこそが、当社の製品が他の製品と一線を画す理由なのです。 ## ワークフローに合わせてIronOCRのパフォーマンスを調整するIronOCRで検索可能なPDFを作成する方法を学ぶ。 関連ドキュメントリンク Githubで見る 関連チュートリアル 関連ハウツーガイド クラスドキュメンテーション OCR言語パック IronOCR DLLをダウンロード Report an Issue on this page 準備はいいですか? Nuget ダウンロード 5,044,537 | バージョン: 2025.11 ただ今リリースされました 試用ライセンスキーがメールで送信されました。 総ダウンロード数: 5,044,537 ライセンスを見る