PDFのOCR方法(無料オンラインツール)
OCRまたは光学文字認識は、テキスト情報をデジタル形式に変換するプロセスです。 PDF OCRは、ビジネスプロセスを改善するために使用できる人気のあるアプリケーションです。 PDF OCRの利点の1つは、情報のアクセシビリティを向上させるために使用できることです。 これは、誰もが使えるまたは読める形式で提供されていない文書にとって特に重要です。 PDF OCRを使用すると、誰もが使用できる形式で利用可能な文書のコピーを作成できます。
PDF OCRの別の用途は、文書の追跡です。 文書がファイルされる、スキャンされる、または転記されるとき、どのバージョンの文書がどのファイルに関連付けられているかを追跡するのが難しい場合があります。PDF OCRを使用すると、文書の変更を追跡し、どのバージョンがどのファイルに関連しているかを判断できます。これは、文書アーカイブを管理し、重要な情報の損失を防ぐのに役立ちます。
この記事では、Adobe Acrobat Proソフトウェアを使用して任意のPDFファイルにOCRを使用する方法を学びます。 この記事では、利用可能な最も効率的で機能豊富なライブラリの1つである.NET OCRライブラリIronOCRも紹介します。 Adobe Acrobat Proから始めましょう。
Adobe Acrobat Pro DCを使用してPDFをOCR化する
Adobe Acrobat Pro DCは、Adobe Acrobat Reader DCのProバージョンです。 PDF操作のための最も人気があり強力なツールです。 このソフトウェアを使用すると、任意のPDF文書を作成、編集、署名、およびレビューできます。 さらに、PDFをPowerPointプレゼンテーション、Word文書、またはExcelファイルに変換できます。 スキャンされた文書の編集も可能です。
Acrobat DCの新しいバージョンは、OCR技術を使用してスキャンされた文書を迅速にデジタルファイルに変換できる文書スキャナでもあります。 光学文字認識の他に、名刺情報を自動的に検出して数秒で保存するインテリジェントな名刺スキャンを特徴としています。
PDFファイルからテキストを抽出できるだけでなく、Acrobat Pro DCは多くの機能を備えており、PDF転記にとって貴重なツールです。
Adobe Acrobat Proを使用してスキャンされた文書のOCRをどのように使用できるか見てみましょう。
- 目的のPDF文書をAdobe Acrobatで開いてください。私たちの例ではスキャンされたPDFファイルです。
- 文書の右ペインから"PDFを編集"を選択します。
- これでAdobe Reader OCR PDFツールのインターフェースが開きます。
- トップリボンの"編集"ボタンをクリックします。
- これにより、スキャンされたPDF文書が完全に編集可能なPDF文書に変換されます。 PDFファイル自体でテキストや画像ファイルを編集できるようになります。
- また、テキストブロックの位置、テキストフォントなどを変更することもできます。
変更を加えた後、ファイルを保存すると、これらの変更が文書に反映されます。
IronOCR: A .NET OCR Library
IronOCRは.NET OCRライブラリであり、テキスト文書や画像を機械で読み取れる形式に変換することができるOCRツールです。
この光学文字認識ライブラリは、以下の考慮事項を念頭に開発されました:
- 外部ソフトウェアを必要とせずに異なる言語で使用できる堅牢で正確なOCRエンジンの必要性。
- Windows、Linux、macOSなどさまざまなプラットフォームで動作する使いやすいAPIの必要性。
- 様々な.NETアプリケーションに簡単に統合でき、WPFとコンソールアプリの両方をサポートするOCRエンジンが必要です。
IronOCRは、文書をスキャンし、テキストとメタデータを抽出し、スキャンされた画像ファイルをインデックスし、画像を検索可能なPDFに変換し、スキャンされた文書を読み取り可能なテキストに変換するソフトウェアを開発するのを容易にします。 IronOCRは、エンコーディング、画像形式変換、テキスト認識および抽出に関して多くのオプションを提供します。 IronOCRは125の言語をサポートしています。
IronOCRは、スキャンされた文書、写真、スクリーンショットからテキストを認識し、ページのセグメンテーションやレイアウト分析といった時間のかかるタスクを減らしながら、直感的で堅牢かつ正確なOCRプロセスを提供します。 このライブラリはC#で開発され、そのAPIデザインはストレートフォワードで読みやすいです。
IronOCRを使用したコード例を見てみましょう:
コード例
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
' Read the PDF and output the recognized text
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
この例では、IronOCRを使用してPDF文書全体または特定のページを処理する方法を示しています。
PDFファイル(入力)
コンソールの出力
IronOCRを使用してPDFを選択可能なPDFに変換できます。 非常にシンプルで分かりやすいです。 以下にPDF変換のコードスニペットを示します:
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' Add PDF for processing
Input.AddPdf("scan.pdf", "password")
' Clean up twisted pages to improve OCR results
Input.Deskew()
' Run OCR and save as a searchable PDF
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
IronOCRは他にも多くのツールと機能を提供しています。 以下のリンクを訪れることで、IronOCRの機能を探ることができます。
結論
IronOCRライブラリは、市場に出回っている他のライブラリに比べていくつかの利点を持っています。 数行のコードで独自のモジュールを追加することで、その機能を変更および拡張することができます。 IronOCRは現在、125以上の言語でテキストを読み取ることができます。 他のライブラリに比べて、より高品質で信頼性の高い結果を生成し、消費時間とメモリリソースを大幅に削減するように開発されています。




