OCRツール

PDFをOCRする方法チュートリアル(無料オンラインツール)

公開済み 2023年1月25日
共有:

OCR(光学文字認識)は、テキスト情報をデジタル形式に変換するプロセスです。 PDF OCRは、ビジネスプロセスを改善するために使用できる人気のあるアプリケーションです。 PDF OCRの利点の一つは、情報のアクセシビリティを向上させるために使用できることです。 これは、誰もが使用または読むことができる形式で提供されていない文書にとって特に重要です。 PDF OCRは、誰でも使用できる形式で利用可能なドキュメントのコピーを作成するために使用できます。

PDF OCRのもう一つの使用法は、ドキュメントの追跡です。 文書が提出、スキャン、または書き起こされた場合、どのバージョンの文書がどのファイルに関連付けられているかを追跡するのは困難です。しかし、PDF OCRを使用すると、文書に加えられた変更を追跡し、どのバージョンがどのファイルに関連付けられているかを特定することが可能です。これにより、文書のアーカイブを管理し、重要な情報の紛失を防ぐのに役立ちます。

この記事では、Adobe Acrobat Proソフトウェアを使用して任意のPDFファイルにOCRを使用する方法について学びます。 この記事では、最も効率的で機能豊富なライブラリの一つである.NET OCRライブラリIronOCRも紹介します。 Adobe Acrobat Proから始めましょう。

Adobe Acrobat Pro DCを使用してPDFのOCRを実行する

PDFをOCRする方法 - 図1

Adobe Acrobat Pro DCは、Adobe Acrobat Reader DCのプロバージョンです。 それはPDF操作において最も人気があり、強力なツールです。 このソフトウェアを使用すると、PDFドキュメントの作成、編集、署名、およびレビューを行うことができます。 さらに、PDFをPowerPointプレゼンテーション、Wordドキュメント、またはExcelファイルに変換することができます。 スキャンしたドキュメントの編集も可能です。

新しいバージョンのAcrobat DCは、OCR技術を使用して迅速にスキャンしたドキュメントをデジタルファイルに変換できるドキュメントスキャナーでもあります。 それには光学文字認識(OCR)が搭載されており、ビジネスカードから連絡先情報を自動的に検出して数秒で保存する賢いビジネスカードスキャン機能も備えています。

PDFファイルからテキストを抽出できることに加えて、Acrobat Pro DCには、PDF転記のための貴重なツールとなる多くの機能が備わっています。

Adobe Acrobat Proを使用してスキャンしたドキュメントのOCRを利用する方法を見てみましょう。

  • Adobe Acrobatで、目的のPDFドキュメント(この例ではスキャンしたPDFファイル)を開きます。
  • ドキュメントの右ペインから「Edit PDF」を選択します。
    PDFをOCRする方法 - 図2

  • これはAdobe Reader OCR PDFツールのインターフェースを開きます。
  • 上部のリボンにある「編集」ボタンをクリックします。
  • これは、スキャンされたPDFドキュメントを完全に編集可能なPDFドキュメントに変換します。 PDFファイル自身でテキストおよび画像ファイルを編集することができます。

    PDF を OCR 化する方法 - 図 3

  • テキストブロックの位置やテキストフォントなども変更できます。

    変更を加えた後、ファイルを保存すると、これらの変更がドキュメントに反映されます。

IronOCR: .NET OCRライブラリ

PDFをOCRする方法 - 図4

IronOCRは、.NETのOCRライブラリおよびOCRツールであり、テキスト文書や画像を機械判読可能な形式に変換して読み取ることができます。

この光学文字認識ライブラリは、以下の点を考慮して開発されました:

  • さまざまな言語に対応でき、外部ソフトウェアを必要としない頑丈で正確なOCRエンジンの必要性。
  • Windows、Linux、およびmacOSなどの異なるプラットフォームで動作する使いやすいAPIの必要性。
  • さまざまな.NETアプリケーションに簡単に統合でき、WPFおよびコンソールアプリの両方をサポートするOCRエンジンの必要性。

    IronOCRは、開発者がドキュメントのスキャンをサポートするソフトウェアを作成し、テキストとメタデータを抽出し、スキャンされた画像ファイルを索引付けし、画像を検索可能なPDFに変換し、スキャンされたドキュメントを読み取り可能なテキストに変換するのを容易にします。 IronOCRは、エンコーディング、画像フォーマットの変換、テキストの認識および抽出に関して多くのオプションを提供します。 IronOCRは125の言語をサポートしています。

    IronOCRは、スキャンしたドキュメント、写真、スクリーンショットからテキストを認識するための直感的で堅牢かつ高精度なOCRプロセスを提供し、ページセグメンテーションやレイアウト解析といった時間のかかる作業を削減します。 ライブラリはC#で開発されており、そのAPI設計はシンプルで可読性が高いです。

    IronOCRを使用したコード例をいくつか見てみましょう。

コード例

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

IronOCRは、PDFドキュメント全体または選択したページ範囲のOCRを行うオプションを提供します。

PDFファイル(入力)

PDF を OCR する方法 - 図 5

コンソールに出力

PDFをOCRする方法 - 図6

IronOCRを使用して、PDFを選択可能なPDFに変換できます。 それは非常に簡単でわかりやすいです。 以下のPDF変換のコードスニペットをご覧ください:

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

IronOCRは多くの他のツールと機能を提供します。 以下にアクセスしてIronOCRの機能を探索できますリンク.

結論

IronOCRライブラリは、市場に出回っている他のライブラリに比べていくつかの利点があります。 ほんの数行のコードで独自のモジュールを追加することにより、機能を修正および拡張することができます。 IronOCRは現在、125以上の言語でテキストを読み取ることができます。 他のライブラリと比較して、はるかに短時間でメモリリソースを大幅に節約しながら、より高品質で信頼性の高い結果を生成するように開発されています。

IronOCRは開発用に無料です。 IronOCRもまた、無料試用本番環境でのテストのために。 価格とIronOCRの無料試用に関する詳細については、次のリンクを参照してくださいリンク.

PDFをOCRする方法 - 図7

< 以前
PDFからのOCR(無料オンラインツール)
次へ >
中国語に最適なOCR(無料およびオンラインツール)