PDFのOCRテキスト抽出

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

PDFのOCRテキスト抽出

Iron Tesseractは、多くの画像形式やPDF文書を読み込むことができます。この機能は、従来の無料のTesseractエンジンでは利用できません。

OcrInput では、スキャン品質が低い場合、PDFの特性を自動的に補正するオプションを提供しています。

開発者は、PDF全体、選択したページ、または単一の切り抜き領域を読み込むよう指定できます。

C#でPDFファイルをOCR処理する方法

PDFファイルをOCR処理するためのC#ライブラリをダウンロード
PDFドキュメントを追加するには AddPdf メソッドを使用してPDFドキュメントを追加する
PDF文書の特定のページを追加するには AddPdfPages メソッド
追加されたPDFに対してOCRを実行するために Read メソッドを使用して、追加されたPDFに対してOCRを実行する
[Text]プロパティ内のすべてのQRコードの値を表示します。 Barcodes プロパティ内のすべてのQRコード値を表示します。TextプロパティにアクセスしてOCR結果を取得します

C# PDF OCR

多くのOCRツールは最適な条件下では問題なく動作しますが、どのような状況でも安定性と精度が向上したツールが必要な場合は、IronOCRテキスト抽出ソリューションが最適です。

テキスト抽出用のIronOCRは、ゼロから構築されており、実世界の画像を99％の精度で変換する機能を備えています。

IronTesseractは、当社のネイティブC# OCRライブラリであり、必ずしも画質が良くなく、時には歪んでいることもある実世界の画像から、人間とほぼ同等の精度で文字を認識することができます。

当社のOCR機能により、スキャン品質が低い場合でも、PDFや画像の特性を自動的に補正することができます。

現在利用可能な最高クラスのOCRソリューションについてご説明していく中で、その実力をぜひご自身の目で確かめていただければと思います。

画像やPDFのOCRテキスト抽出にIronOCRを選ぶ理由とは？

Tesseractの管理にIronOCRソリューションを選択することは、その独自の機能（以下を含む）を考慮すれば、当然の選択と言えます：

PDFのテキスト抽出エンジンであるIronOCR for .NETは、純粋な.NET環境でそのまま使用可能です。
お使いのマシンにTesseractをインストールする必要はありません。
最新のエンジンである Tesseract 5（および Tesseract 4 および 3）との互換性が抜群です。
あらゆる.NETプロジェクトで利用可能です：.NET Framework 4.5 以上、.NET Standard 2 以上、および.NET Core 2、3、5！
他のオープンソース版Tesseractと比較して、精度と処理速度が向上しています。
IronOCRは、Xamarin、Mono、Azure、およびDockerの開発プラットフォームに対応しています。
NuGet パッケージを使用して、複雑な Tesseract 辞書システムを管理できます。
追加の設定を一切行わなくても、PDF、MultiFrame TIFF、および主要な画像ファイルからテキストを抽出できます。
画質が低かったり歪んでいたりするスキャン画像を補正し、テキスト抽出プロジェクトで最高の結果を得ることができます。

スキャン品質の低い画像をお持ちですか？承知しました！

IronOCRは、OCRタスクにおいて一段と優れた性能を発揮します。実際には、多くの類似製品は、機械印刷された高解像度の完璧なテキストや画像に対して最適化されているため、実際のアプリケーションでは不正確になったり、機能しなくなったりすることがあります。しかし、IronOCRの場合はそうではありません。

IronOCRは、不完全なドキュメントの修正に優れています。歪んだスキャン画像を補正したり、低品質な写真を補正したりして、検索可能なPDF文書や画像に変換することができます。これこそが、当社の製品を他社製品と差別化する点です。

ワークフローに合わせてIronOCRのパフォーマンスを調整する

Iron SoftwareのOCRソリューションを使用すれば、テキスト抽出タスクのパフォーマンスを調整し、ワークフローに最適なバランスを実現できます。これは多くのユーザーや開発者にとって非常に重要であることを認識しており、そのため当社のOCRソリューションは、パフォーマンスを調整可能かつ柔軟に設計されています。

例えば、OCR処理の速度に影響を与える非常に重要な要素の一つは、入力画像の品質です。背景ノイズが少なく、画像の解像度が高いほど（200 dpiが適切な範囲です）、処理速度が向上し、OCRの結果もより正確になります。しかし、IronOCRのパフォーマンスチューニング機能により、画質が低い画像を含むタスクでも迅速に処理できます。

さらに、PNGやTIFFなど、デジタルノイズの少ない入力画像やスキャンしたテキスト形式を選択することで、JPEGなどの低品質な画像形式よりも迅速な結果が得られる場合があります。

IronOCRソリューションのインストールは簡単です

Iron Software Suiteは、インストールと実行が非常に簡単です。主要な開発プラットフォームに対応しています。当社のソリューションは、Windows、Linux、macOS、Azure、AWS、Dockerを含むクロスプラットフォームに対応しています。C#が開発者の間で最も好まれるTesseract OCRエンジンとなっているのには、それなりの理由があります。

125以上の国際言語に対応

OCRの案件においては、特定のソフトウェアが複数の言語に対応している場合、その有用性が高まります。 IronOCRソリューションは、125の国際言語に対応しているため、不可欠な存在となっています。これらの言語は、DLLファイルとして配布される言語パックを介してインストールできます。これらは、このウェブサイトまたはVisual Studio用のNuGetパッケージマネージャーからダウンロードできます。

OCR言語パックのインストール方法

120の言語に対応しています。追加のOCR言語パックは、以下の2つの方法でダウンロードできます：

NuGet パッケージをインストールする

NuGetでIronOCR言語を検索してください。

OCRデータメソッドの使用

ocrdata ファイルをダウンロードし、.NET プロジェクトまたはプログラムファイルに追加してください。

スキャンしたファイルや画像から、検索可能なドキュメントを簡単に作成できます

当社が特に自信を持っている機能の一つは、Tesseractソフトウェアが、入力画像やスキャンしたPDFファイルから検索可能なPDFドキュメントや検索可能なテキストを作成できる点です。C#およびVB.NETでは、OCR処理の結果を検索可能なPDFドキュメントとしてエクスポートすることができます。これは、企業や政府機関におけるデータベースの構築、SEO、PDFの処理に大いに役立ちます。

最高のOCRツールの力を活用しましょう

IronOCRは、画像や文書からテキストを抽出するための最高クラスのツールです。 OCRタスクを完了する際、快適でスムーズな体験を提供する数多くの機能やソリューションが搭載されています。

当社の OCR Tesseract C# ライブラリは、C# や .NET アプリケーションなどの開発環境において、画像やスキャンした文書からテキストを抽出するのに役立ちます。

IronOCRを使えば、パスワードで保護されたPDF文書も簡単に開くことができ、テキストをスムーズに抽出することも可能です。

また、以下の特徴も備えています：

実行ファイルやC++コードは不要です
PDF OCRの完全なサポート
MVC、Webアプリ、デスクトップ、コンソール、およびサーバーアプリケーションに対応
.NET Core、Standard、および Framework を完全にサポート
C# および VB を使用して読み込んでください。 .NET
QRコードやBARCODEを読み取ります
OCR結果をXHTMLまたは検索可能なPDF文書としてエクスポートします
マルチスレッドに対応
画像、座標、統計データ、フォントなど、さまざまな情報を抽出します

IronOCRへの大胆な一歩を踏み出しましょう

この素晴らしいOCRソリューションの機能を考慮すれば、IronOCRを試してみることに間違いはありません。

当社のソフトウェアは、わずか数クリックでご利用いただけます。まずはIronOCRをインストールすることから始めましょう。これは驚くほど簡単な作業です。さらに、各ツールの使用方法に関する非常に役立つ詳細なステップバイステップガイドやハウツー記事に加え、お問い合わせには可能な限り迅速（ほぼ即時）に対応する充実したサポートセンターもご用意しています。

迷わず、今すぐIronOCRをお選びください。これは、C#でPDFファイルを読み込む方法を学ぶ上で、最初かつ最も重要なステップです。

もしご不明な点がございましたら、当社の無料トライアルライセンスキーをご利用ください。これにより、金銭的な制約なしに、IronOCRの最新バージョンの可能性を最大限に引き出すことができます。これにより、どのソフトウェアライセンスがご自身に適しているかを判断する一助となります。ご不明な点がございましたら、お住まいの地域に関わらず、お気軽に当社の専門家チームまでお問い合わせください。

IronOCR を使って検索可能な PDF を作成する方法を学ぶ