PDF テキスト抽出のためのOCR

Iron Tesseractは、多くの画像形式およびPDFドキュメントを読み取ることができます。 この機能は従来の無料のTesseractエンジンでは実現できません。

OcrInputは、スキャンの品質が悪い場合にPDFの特性を自動的に修正するオプションを提供します。

開発者は、PDF全体、特定のページの選択、または単一のクロップエリアを読み取るように指定できます。

C# PDF OCR (オーシーアール)

多くのOCRツールは最適な条件でうまく動作しますが、あらゆる条件で安定性と精度を向上させる必要がある場合、IronOCRテキスト抽出ソリューションが必要です。

IronOCR forテキスト抽出は、ゼロから構築され、現実世界の画像を99パーセントの精度で変換する能力を備えています。

IronTesseractは、ほぼ人間のように文字を認識できるネイティブC# OCRライブラリで、必ずしも良質とは限らない、時には傾いている現実の画像から文字を認識することができます。

当社のOCRは、スキャンの品質が低い場合でも、PDFや画像の特徴を自動的に修正することができます。

最高クラスのOCRソリューションをご案内する際に、自らその優れた性能をご確認いただけます。

なぜ画像やPDFのOCRテキスト抽出にIronOCRを選ぶのか?

Tesseract管理のためにIronOCRソリューションを選ぶことは、その独自の能力を考慮すると明らかに最適な選択です。その能力には次のものが含まれます:

  1. IronOCR for PDFのOCRテキスト抽出エンジンは、純粋な.NET環境で即座に動作します。

  2. ご利用のコンピュータにTesseractをインストールする必要はありません。

  3. これは最新のエンジン、Tesseract 5と非常に優れた連携を発揮します。 (Tesseract 4および3).

  4. 以下の .NET プロジェクトで利用可能です:.NET Framework 4.5 以上、.NET Standard 2 以上、.NET Core 2、3 および 5!

  5. 他のオープンソースのTesseractに比べて精度と速度が向上しています。

  6. IronOCR は、Xamarin、Mono、Azure、および Docker 開発プラットフォームに対応しています。

  7. NuGetパッケージを使用して、複雑なTesseract辞書システムを管理することができます。

  8. 追加の調整をすることなく、PDF、MultiFrame Tiff、およびすべての主要な画像ファイルからテキストを抽出できます。

  9. 低品質で歪んだ画像スキャンを修正し、テキスト抽出プロジェクトから最高の結果を得ることができます。

    IronOCRソリューションの完全チュートリアルをご覧ください。 申し訳ありませんが、「here」のみ提供されているため、翻訳が難しいです。追加の内容や完全な文を提供していただければ、正確な翻訳を提供できます。

低品質のスキャンがありますか?

問題ありません!

IronOCRは、OCRタスクに関してより高いレベルで際立っています。 実際には、多くの類似製品は、機械で印刷された高解像度で完璧なテキストや画像との相性が良いように作られており、現実のアプリケーションでは不正確になったり、失敗したりします。 しかし、IronOCRの場合はそうではありません。

IronOCRは不完全なドキュメントの修正に優れています。 それは傾きのあるスキャン画像をまっすぐにし、低品質の写真を強化して、検索可能なPDFドキュメントや画像にすることができます。 これが私たちの製品を他のものと際立たせる点です。

ワークフローに合わせてIronOCRのパフォーマンスを調整する

Iron SoftwareのOCRソリューションを使用すると、ワークフローに最適なバランスを得るためにテキスト抽出タスクのパフォーマンスを調整することができます。 多くのユーザーや開発者にとって非常に重要であることを認識しているため、私たちはOCRソリューションを性能調整可能で柔軟に構築しました。

例えば、OCR処理の速度に影響を与える非常に重要な要素の一つは、入力画像の品質です。 背景ノイズが少なく、同時に高いdpiがある場合 ( 200 dpi は良い範囲です)、結果の生成が速くなり、OCRの精度が向上します。 しかし、IronOCRのパフォーマンスチューニング機能を使用することで、低品質の画像を使用するタスクでも迅速に完了することができます。

さらに、デジタルノイズが少ないPNGやTIFFなどの入力画像やスキャンテキスト形式を選ぶと、JPEGなどの低品質な画像形式に比べてより迅速な結果を得ることができます。

IronOCRソリューションのインストールはとても簡単です。

Iron Softwareのスイートは非常に簡単にインストールして実行できます。 それは最も人気のある開発プラットフォームで利用可能です。 私たちのソリューションは、Windows、Linux、macOS、Azure、AWS、Docker などのクロスプラットフォームサポートを提供します。C# が開発者の間で最も好まれる Tesseract OCR エンジンになる理由があります。

125以上の国際言語に対応

OCR作業のためには、特定のソフトウェアが複数の言語に対応しているとより便利になります。 IronOCRソリューションは、125の国際言語をサポートするため、不可欠な存在となっています。 これらの言語は、DLLファイルとして配布される言語パックを通じてインストールできます。 それらはこのウェブサイトまたはVisual StudioのNuGetパッケージマネージャーからダウンロードできます。

OCR 言語パックのインストール方法

120の言語がサポートされています。 以下からダウンロードできます: 追加のOCR言語パック 2つの方法を使用して:

NuGetパッケージをインストールする

NuGetでIronOCR Languagesを検索してください。

OCRデータメソッドを使う

「ocrdata」ファイルをダウンロードして、.NETプロジェクトまたはプログラムファイルに追加してください。

Set CopyToOutputDirectory = CopyIfNewer
Set CopyToOutputDirectory = CopyIfNewer
VB.NET

スキャンされたファイルや画像から簡単に検索可能なドキュメントを作成

私たちが非常に誇りに思っている機能の一つは、Tesseractソフトウェアが入力画像やスキャンされたPDFファイルから検索可能なPDFドキュメントや検索可能なテキストを作成する能力です。OCR結果をPDFとしてエクスポートすることができ、C#やVB.NETで検索可能なPDFドキュメントとして利用できます。 これは、データベースの充実、SEO、PDFにおいて、企業や政府に非常に役立ちます。

最高のOCRツールの力を活用してください。

IronOCRは、画像やドキュメントからテキストを抽出するための最高級のツールです。 それは、OCRタスクを完了する際に快適でスムーズな体験を提供する、多くの機能、機能性、およびソリューションが付属しています。

弊社のOCR Tesseract C#ライブラリは、C#や.NETアプリケーションといった開発環境で、画像やスキャンした文書からテキストを抽出するのに役立ちます。

IronOCRを使用すれば、パスワードで保護されたPDF文書を簡単に開くことができ、さらにスムーズにテキストを抽出することができます。

以下の特徴もあります:

  • 実行可能ファイルやC++コードを必要としません
  • 完全なPDF OCRサポート
  • MVC、Webアプリ、デスクトップ、コンソール、およびサーバーアプリケーション対応
  • .NET Core、Standard、およびFrameworkの完全サポート
  • C#およびVB .NETを使用して読み込み
  • QRコードとバーコードを読み取ります
  • XHTMLまたは検索可能なPDFドキュメントにOCRをエクスポートします
  • マルチスレッドをサポート

  • 画像、座標、統計、フォントなどを抽出します

一歩先を行くIronOCRを選びましょう

この素晴らしいOCRソリューションの機能を考慮すると、IronOCRを試してみることを決めても間違いないでしょう。

弊社のソフトウェアは数回のクリックで使用可能です。 まずはIronOCRをインストールします。これは非常に簡単な作業です。 さらに、非常に役立つ 詳細なステップバイステップガイド 以下のツールを使用する場合は ハウツーまた、できるだけ早く問い合わせに対応することを目指す当社の充実したサポートセンターもあります。 (ほぼ即座に).

迷わずに、今日からIronOCRを選んでください。 それはC#でPDFファイルを読む方法を学ぶ上で最初で最も重要なステップです。

まだ疑問が残っている場合は、無料の試用ライセンスキーが最適です。 それは、IronOCRの最新バージョンの全ての可能性を、金銭的条件なしで探索するのに役立ちます。 それにより、どのソフトウェアライセンスがあなたに最適かを決定するのに役立ちます。 ご不明な場合は、お住まいの地域にかかわらず、遠慮なく当社の専門家チームにお問い合わせください;