フッターコンテンツにスキップ
OCRツール

PDFのOCR方法(無料オンラインツール)

OCRまたは光学文字認識は、テキスト情報をデジタル形式に変換するプロセスです。 PDF OCRは、ビジネスプロセスを改善するために使用できる人気のあるアプリケーションです。 PDF OCRの利点の1つは、情報のアクセシビリティを向上させるために使用できることです。 これは、誰もが使えるまたは読める形式で提供されていない文書にとって特に重要です。 PDF OCRを使用すると、誰もが使用できる形式で利用可能な文書のコピーを作成できます。

PDF OCRの別の用途は、文書の追跡です。 文書がファイルされる、スキャンされる、または転記されるとき、どのバージョンの文書がどのファイルに関連付けられているかを追跡するのが難しい場合があります。PDF OCRを使用すると、文書の変更を追跡し、どのバージョンがどのファイルに関連しているかを判断できます。これは、文書アーカイブを管理し、重要な情報の損失を防ぐのに役立ちます。

この記事では、Adobe Acrobat Proソフトウェアを使用して任意のPDFファイルにOCRを使用する方法を学びます。 この記事では、利用可能な最も効率的で機能豊富なライブラリの1つである.NET OCRライブラリIronOCRも紹介します。 Adobe Acrobat Proから始めましょう。

Adobe Acrobat Pro DCを使用してPDFをOCR化する

class="content-img-align-center"> How to OCR a PDF - Figure 1

Adobe Acrobat Pro DCは、Adobe Acrobat Reader DCのProバージョンです。 PDF操作のための最も人気があり強力なツールです。 このソフトウェアを使用すると、任意のPDF文書を作成、編集、署名、およびレビューできます。 さらに、PDFをPowerPointプレゼンテーション、Word文書、またはExcelファイルに変換できます。 スキャンされた文書の編集も可能です。

Acrobat DCの新しいバージョンは、OCR技術を使用してスキャンされた文書を迅速にデジタルファイルに変換できる文書スキャナでもあります。 光学文字認識の他に、名刺情報を自動的に検出して数秒で保存するインテリジェントな名刺スキャンを特徴としています。

PDFファイルからテキストを抽出できるだけでなく、Acrobat Pro DCは多くの機能を備えており、PDF転記にとって貴重なツールです。

Adobe Acrobat Proを使用してスキャンされた文書のOCRをどのように使用できるか見てみましょう。

  • 目的のPDF文書をAdobe Acrobatで開いてください。私たちの例ではスキャンされたPDFファイルです。
  • 文書の右ペインから"PDFを編集"を選択します。
class="content-img-align-center"> How to OCR a PDF - Figure 2

  • これでAdobe Reader OCR PDFツールのインターフェースが開きます。
  • トップリボンの"編集"ボタンをクリックします。
  • これにより、スキャンされたPDF文書が完全に編集可能なPDF文書に変換されます。 PDFファイル自体でテキストや画像ファイルを編集できるようになります。
class="content-img-align-center"> How to OCR a PDF - Figure 3

  • また、テキストブロックの位置、テキストフォントなどを変更することもできます。

変更を加えた後、ファイルを保存すると、これらの変更が文書に反映されます。

IronOCR: A .NET OCR Library

class="content-img-align-center"> How to OCR a PDF - Figure 4

IronOCRは.NET OCRライブラリであり、テキスト文書や画像を機械で読み取れる形式に変換することができるOCRツールです。

この光学文字認識ライブラリは、以下の考慮事項を念頭に開発されました:

  • 外部ソフトウェアを必要とせずに異なる言語で使用できる堅牢で正確なOCRエンジンの必要性。
  • Windows、Linux、macOSなどさまざまなプラットフォームで動作する使いやすいAPIの必要性。
  • 様々な.NETアプリケーションに簡単に統合でき、WPFとコンソールアプリの両方をサポートするOCRエンジンが必要です。

IronOCRは、文書をスキャンし、テキストとメタデータを抽出し、スキャンされた画像ファイルをインデックスし、画像を検索可能なPDFに変換し、スキャンされた文書を読み取り可能なテキストに変換するソフトウェアを開発するのを容易にします。 IronOCRは、エンコーディング、画像形式変換、テキスト認識および抽出に関して多くのオプションを提供します。 * そして多くの他の機能と機能があります。

IronOCRは、スキャンされた文書、写真、スクリーンショットからテキストを認識し、ページのセグメンテーションやレイアウト分析といった時間のかかるタスクを減らしながら、直感的で堅牢かつ正確なOCRプロセスを提供します。 このライブラリはC#で開発され、そのAPIデザインはストレートフォワードで読みやすいです。

IronOCRを使用したコード例を見てみましょう:

コード例

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively, OCR selected page numbers
    Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");

    // Read the PDF and output the recognized text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively, OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	' Read the PDF and output the recognized text
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

この例では、IronOCRを使用してPDF文書全体または特定のページを処理する方法を示しています。

PDFファイル(入力)

class="content-img-align-center"> How to OCR a PDF - Figure 5

コンソールの出力

class="content-img-align-center"> How to OCR a PDF - Figure 6

IronOCRを使用してPDFを選択可能なPDFに変換できます。 非常にシンプルで分かりやすいです。 以下にPDF変換のコードスニペットを示します:

using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

// Initialize OCR input
using (var Input = new OcrInput())
{
    // Add PDF for processing
    Input.AddPdf("scan.pdf", "password");

    // Clean up twisted pages to improve OCR results
    Input.Deskew();

    // Run OCR and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

' Initialize OCR input
Using Input = New OcrInput()
	' Add PDF for processing
	Input.AddPdf("scan.pdf", "password")

	' Clean up twisted pages to improve OCR results
	Input.Deskew()

	' Run OCR and save as a searchable PDF
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

IronOCRは他にも多くのツールと機能を提供しています。 以下のリンクを訪れることで、IronOCRの機能を探ることができます。

結論

IronOCRライブラリは、市場に出回っている他のライブラリに比べていくつかの利点を持っています。 数行のコードで独自のモジュールを追加することで、その機能を変更および拡張することができます。 IronOCRは現在、125以上の言語でテキストを読み取ることができます。 他のライブラリに比べて、より高品質で信頼性の高い結果を生成し、消費時間とメモリリソースを大幅に削減するように開発されています。

  • PDFs 無料試用を提供し、本番環境でのテストを提供しています。 IronOCRに関する価格と無料試用の詳細については、リンクを参照してください。
class="content-img-align-center"> How to OCR a PDF - Figure 7

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。