フッターコンテンツにスキップ
OCRツール

PDFのOCR方法(無料オンラインツール)

OCR または光学式文字認識は、文字情報をデジタル形式に変換するプロセスです。 PDF OCR は、ビジネスプロセスを改善するために使用できる一般的なアプリケーションです。 PDF OCR の利点の 1 つは、情報へのアクセス性を向上できることです。 これは、誰もが使用または閲覧できる形式で提供されていないドキュメントにとって特に重要です。 PDF OCR を使用すると、誰もが使用できる形式で提供されるドキュメントのコピーを作成できます。

PDF OCR のもう 1 つの用途は、ドキュメントの追跡です。 ドキュメントがファイリングされたり、スキャンまたは転記されたりする場合、ドキュメントのどのバージョンがどのファイルに関連しているかを追跡するのが難しい場合があります。PDF OCR を使用すると、ドキュメントに加えられた変更を追跡し、どのバージョンがどのファイルに関連しているかを特定することができます。これは、ドキュメントアーカイブを管理し、重要な情報の損失を防ぐのに役立ちます。

この記事では、Adobe Acrobat Pro ソフトウェアを使用して任意の PDF ファイルに対して OCR を使用する方法を学びます。 .NET OCR ライブラリの IronOCR は、利用可能な効率的で機能豊富なライブラリの 1 つとして紹介します。 Adobe Acrobat Pro から始めましょう。

Adobe Acrobat Pro DC を使用して PDF に OCR を適用する

How to OCR a PDF - Figure 1

Adobe Acrobat Pro DC は、Adobe Acrobat Reader DC の Pro バージョンです。 これは、PDF 操作において最も人気があり強力なツールです。 このソフトウェアを使用すると、任意の PDF ドキュメントを作成、編集、署名、レビュすることができます。 さらに、PDF を PowerPoint プレゼンテーション、Word ドキュメント、または Excel ファイルに変換できます。 スキャンされたドキュメントを編集することもできます。

Acrobat DC の新バージョンは、スキャンされたドキュメントを OCR 技術を利用して迅速にデジタルファイルに変換できるドキュメントスキャナーでもあります。 それは光学式文字認識だけでなく、インテリジェントな名刺スキャンを備え、数秒で名刺から連絡先情報を自動的に検出し保存します。

PDF ファイルからテキストを抽出することのほかに、Acrobat Pro DC には PDF の文字起こしに役立つ多くの機能が備わっています。

Adobe Acrobat Pro を使用してスキャンされたドキュメントに OCR を使用する方法を見てみましょう。

  • 例として使用するスキャンされた PDF ファイルを Adobe Acrobat で開きます。
  • ドキュメントの右側のペインから"PDF を編集"を選択します。
How to OCR a PDF - Figure 2

  • これにより、Adobe Reader OCR PDF ツールのインターフェースが開かれます。
  • 上部のリボンの"編集"ボタンをクリックします。
  • これにより、スキャンされた PDF ドキュメントは完全に編集可能な PDF ドキュメントに変換されます。 PDF ファイル内のテキストや画像ファイルを編集できるようになります。
How to OCR a PDF - Figure 3

  • テキストブロックの位置、テキストフォントなども変更できます。

変更を加えた後、ファイルを保存すると、これらの変更がドキュメントに反映されます。

IronOCR: .NET OCR ライブラリ

How to OCR a PDF - Figure 4

IronOCR は、.NET OCR ライブラリであり、テキストドキュメントや画像を機械で読み取れる形式に変換することができる OCR ツールです。

この光学式文字認識ライブラリは、次の点を考慮して開発されました:

  • 外部ソフトウェアを必要とせず、さまざまな言語で利用可能な堅牢で正確な OCR エンジンの必要性。
  • Windows、Linux、macOS など、さまざまなプラットフォームで動作する使いやすい API の必要性。
  • WPF やコンソールアプリを含むさまざまな .NET アプリケーションに簡単に統合できる OCR エンジンの必要性。

IronOCR は、開発者がドキュメントのスキャン、テキストとメタデータの抽出、スキャンした画像ファイルのインデックス作成、画像を検索可能な PDF に変換、およびスキャンしたドキュメントを読み取り可能なテキストに変換するソフトウェアを作成しやすくします。 IronOCR は、エンコーディング、画像フォーマット変換、テキスト認識と抽出に関して多くのオプションを提供します。 IronOCRは125の言語をサポートしています。

IronOCR は、スキャンされたドキュメント、写真、スクリーンショットからのテキストを認識し、ページのセグメンテーションやレイアウト分析といった時間のかかるタスクを削減しながら、直感的で堅牢で正確な OCR プロセスを提供します。 ライブラリは C# で開発されており、その API デザインは読みやすさに優れています。

IronOCR を使用したコード例を見てみましょう。

コード例

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively, OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	' Read the PDF and output the recognized text
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

この例では、IronOCR を使用して PDF ドキュメント全体またはドキュメントの特定のページを処理する方法を示します。

PDF ファイル (入力)

How to OCR a PDF - Figure 5

コンソール出力

How to OCR a PDF - Figure 6

IronOCR を使用して PDF を選択可能な PDF に変換できます。 とても簡単で分かりやすいです。 以下に PDF 変換のコードスニペットをご覧ください。

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' Add PDF for processing
	Input.AddPdf("scan.pdf", "password")

	' Clean up twisted pages to improve OCR results
	Input.Deskew()

	' Run OCR and save as a searchable PDF
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

IronOCR は、多くの他のツールと機能を提供します。 IronOCR の機能については、次の リンク をご覧ください。

結論

IronOCR ライブラリは、市場にある他のライブラリよりもいくつかの利点を持っています。 わずか数行のコードで独自のモジュールを追加して、その機能を修正および拡張することができます。 IronOCR は現在、125 以上の言語でテキストを読み取ることができます。 他のライブラリと比較して、より高品質で信頼性の高い結果を生成しながら、はるかに少ない時間とメモリリソースを消費するように開発されています。

IronOCRは開発用に無料です。 IronOCR は、試作でのテスト用に 無料トライアル も提供しています。 IronOCR の価格と無料トライアルの詳細については、次の リンク をご覧ください。

How to OCR a PDF - Figure 7

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。