PDFのOCRテキスト抽出

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

PDFのOCRテキスト抽出

Iron Tesseract は、多くの画像形式や PDF ドキュメントを読み取ることができます。この機能は、従来の無料の Tesseract エンジンでは実現できません。

OcrInput は、スキャンが低品質の場合にPDFの特性を自動的に補正するオプションを提供します。

開発者は、PDF 全体、選択したページ、または単一の切り取り領域を読み取るように指定できます。

C#でPDFファイルをOCR処理する方法

OCR PDF ファイルに C# ライブラリをダウンロードする
AddPdfメソッドを使用してPDFドキュメントを追加します
AddPdfPagesメソッドを使用してPDFドキュメントの特定のページを追加する
追加されたPDFに対してOCRを実行するためにReadメソッドを利用する
BarcodesプロパティですべてのQRコード値を表示します。OCR結果を取得するにはTextプロパティにアクセスします。

C# PDF OCR

多くの OCR ツールは最適な条件下では正常に動作しますが、どのような条件下でも安定性と精度が向上したツールが必要な場合は、IronOCR テキスト抽出ソリューションが最適です。

テキスト抽出用の IronOCR は、ゼロから構築されており、現実世界の画像を 99 パーセントの精度で変換できます。

IronTesseract、当社のネイティブC# OCRライブラリは、必ずしも高品質ではなく、時には傾いている現実世界の画像から、人間に近い方法で文字を認識することができます。

当社の OCR を使用すると、スキャンの品質が悪い場合でも PDF または画像の特性を自動的に修正できます。

現在入手可能なクラス最高の OCR ソリューションをご紹介するので、ご自身の目で確認していただけます。

画像または PDF OCR テキスト抽出に IronOCR を使用する理由

次のような独自の機能を考慮すると、Tesseract 管理に IronOCR ソリューションを選択するのは当然の選択です。

PDF OCRテキスト抽出エンジンのIronOCRは、純粋な.NETですぐに使用できます。
マシンに Tesseract がインストールされている必要はありません。
最新のエンジンである Tesseract 5 (および Tesseract 4 と 3) で非常にうまく動作します。
.NET Framework 4.5 +、.NET Standard 2 +、.NET Core 2、3、5 など、あらゆる .NET プロジェクトで利用できます。
他のオープンソース Tesseract に比べて精度と速度が向上しています。
IronOCR は、Xamarin、Mono、Azure、Docker 開発プラットフォームをサポートしています。
NuGet パッケージを使用して、複雑な Tesseract 辞書システムを管理できます。
追加の操作なしで、PDF、MultiFrame Tiff、およびすべての主要な画像ファイルからテキストを抽出できます。
低品質の画像スキャンや歪んだ画像スキャンを修正して、テキスト抽出プロジェクトから最良の結果を得ることができます。

低品質のスキャンはありますか? 問題ありません！

OCR タスクに関しては、IronOCR がより高いレベルで際立っています。実際には、多くの類似製品は、機械で印刷された高解像度の完璧なテキストや画像で適切に機能するように作られているため、実際のアプリケーションでは不正確になったり、機能しなくなったりします。しかし、IronOCR の場合はそうではありません。

IronOCR は不完全な文書の修正に優れています。スキャンした画像を歪ませてまっすぐにしたり、低品質の写真を強調して検索可能な PDF ドキュメントや画像にしたりできます。これが当社製品を他社製品より際立たせる点です。

ワークフローに合わせてIronOCRのパフォーマンスを調整

Iron Software OCR ソリューションを使用すると、テキスト抽出タスクのパフォーマンスを調整して、ワークフローの適切なバランスを実現できます。これは多くのユーザーや開発者にとって非常に重要であることを私たちは理解しているため、パフォーマンスを調整可能かつ柔軟な OCR ソリューションを構築しました。

たとえば、OCR ジョブの速度に影響を与える非常に重要な要素の 1 つは、入力画像の品質です。背景ノイズが少なく、画像の dpi が高い場合 (200 dpi が適切な範囲)、歩留まりが速くなり、OCR 結果の精度が高まります。ただし、IronOCR のパフォーマンスチューニング機能を使用すると、品質の低い画像を使用するタスクでも迅速に完了できます。

さらに、PNG や TIFF などのデジタルノイズの少ない入力画像やスキャンしたテキスト形式を選択すると、JPEG などの低品質の画像形式よりも早く結果が得られます。

IronOCRソリューションのインストールは簡単です

Iron Software スイートはインストールも実行も非常に簡単です。最も人気のある開発プラットフォームで利用できます。当社のソリューションは、Windows、Linux、macOS、Azure、AWS、Docker を含むクロスプラットフォームサポートを備えています。C# が開発者の間で最も好まれる Tesseract OCR エンジンとなっているのには理由があります。

125以上の国際言語をサポート

OCR ジョブの場合、特定のソフトウェアが複数の言語をサポートすると、さらに便利になります。 IronOCR ソリューションは、125 の国際言語をサポートしているため、必要不可欠なものとなっています。これらの言語は、DLL ファイルとして配布される言語パックを介してインストールできます。これらは、この Web サイトまたは Visual Studio 用の NuGet パッケージマネージャーからダウンロードできます。

OCR言語パックのインストール方法

120 の言語がサポートされています。追加の OCR 言語パックは、次の 2 つの方法でダウンロードできます。

NuGetパッケージをインストールする

NuGetでIronOCR 言語を検索します。

OCRデータ方式の使用

ocrdata ファイルをダウンロードし、それを.NETプロジェクトまたはプログラムファイルに追加します。

スキャンしたファイルや画像から検索可能なドキュメントを簡単に作成できます

私たちが特に誇りに思っている機能の一つは、Tesseractソフトウェアが入力画像やスキャンしたPDFファイルから検索可能なPDF文書や検索可能なテキストを作成できることです。OCR結果をPDFとしてエクスポートすれば、C#やVB.NETで検索可能なPDF文書を作成できます。これは、データベースの作成、SEO、PDF に関して企業や政府に非常に役立ちます。

最高のOCRツールのパワーを活用する

IronOCR は、画像や文書からテキストを抽出するためのクラス最高のツールです。 OCR タスクを完了する際に快適かつスムーズなエクスペリエンスを提供する多数の機能、機能、ソリューションが付属しています。

当社の OCR Tesseract C# ライブラリは、C# や .NET アプリケーションなどの開発環境で画像やスキャンされたドキュメントからテキストを抽出するのに役立ちます。

IronOCR を使用すると、パスワードで保護された PDF ドキュメントを簡単に開いたり、テキストをスムーズに抽出したりすることもできます。

また、次のような特徴もあります。

実行ファイルやC++コードは不要
完全なPDF OCRサポート
MVC、Webアプリ、デスクトップ、コンソール、サーバーアプリケーションと互換性があります
.NET Core、Standard、Framework の完全なサポート
C# & VB .NET を使用して読み取ります
QRコードとバーコードを読み取る
OCRをXHTMLまたは検索可能なPDF文書にエクスポートします
マルチスレッドをサポート
画像、座標、統計、フォントなどを抽出します

IronOCRへの大胆な一歩を踏み出そう

この驚くべき OCR ソリューションの機能を考慮すると、IronOCR を試してみて間違いはありません。

当社のソフトウェアは、数回クリックするだけで使用できます。まず、IronOCR をインストールします。これは非常に簡単な作業です。さらに、弊社のツールやハウツーの使用方法については、非常に役立つ詳細なステップバイステップのガイドが用意されており、問い合わせにできるだけ早く（ほぼ即時に）応答するリソース豊富なサポートセンターもご利用いただけます。

迷わず、今すぐ IronOCR をお選びください。これは、C# で PDF ファイルを読み取る方法を学ぶ上で最初かつ最も重要なステップです。

心の中に疑問が残っている場合は、弊社の無料トライアルライセンスキーが最適です。金銭的な条件なしに、最新バージョンの IronOCR の可能性を最大限に探求するのに役立ちます。どのソフトウェアライセンスが適切かを判断するのに役立ちます。ご不明な点がございましたら、お住まいの地域に関係なく、お気軽に当社の専門家チームにお問い合わせください。

IronOCRで検索可能なPDFを作成する方法を学ぶ