OCRツール

PDFをOCRする方法チュートリアル（無料オンラインツール）

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

カンナパット・ウドンパント

2023年1月25日

共有:

OCR（光学文字認識）は、テキスト情報をデジタル形式に変換するプロセスです。 PDF OCRは、ビジネスプロセスを改善するために使用できる人気のあるアプリケーションです。 PDF OCRの利点の一つは、情報のアクセシビリティを向上させるために使用できることです。これは、誰もが使用または読むことができる形式で提供されていない文書にとって特に重要です。 PDF OCRは、誰でも使用できる形式で利用可能なドキュメントのコピーを作成するために使用できます。

PDF OCRのもう一つの使用法は、ドキュメントの追跡です。文書が提出、スキャン、または書き起こされた場合、どのバージョンの文書がどのファイルに関連付けられているかを追跡するのは困難です。しかし、PDF OCRを使用すると、文書に加えられた変更を追跡し、どのバージョンがどのファイルに関連付けられているかを特定することが可能です。これにより、文書のアーカイブを管理し、重要な情報の紛失を防ぐのに役立ちます。

この記事では、Adobe Acrobat Proソフトウェアを使用して任意のPDFファイルにOCRを使用する方法について学びます。この記事では、最も効率的で機能豊富なライブラリの一つである.NET OCRライブラリIronOCRも紹介します。 Adobe Acrobat Proから始めましょう。

Adobe Acrobat Pro DCを使用してPDFのOCRを実行する

Adobe Acrobat Pro DCは、Adobe Acrobat Reader DCのプロバージョンです。それはPDF操作において最も人気があり、強力なツールです。このソフトウェアを使用すると、PDFドキュメントの作成、編集、署名、およびレビューを行うことができます。さらに、PDFをPowerPointプレゼンテーション、Wordドキュメント、またはExcelファイルに変換することができます。スキャンしたドキュメントの編集も可能です。

新しいバージョンのAcrobat DCは、OCR技術を使用して迅速にスキャンしたドキュメントをデジタルファイルに変換できるドキュメントスキャナーでもあります。それには光学文字認識（OCR）が搭載されており、ビジネスカードから連絡先情報を自動的に検出して数秒で保存する賢いビジネスカードスキャン機能も備えています。

PDFファイルからテキストを抽出できることに加えて、Acrobat Pro DCには、PDF転記のための貴重なツールとなる多くの機能が備わっています。

Adobe Acrobat Proを使用してスキャンしたドキュメントのOCRを利用する方法を見てみましょう。

Adobe Acrobatで、目的のPDFドキュメント（この例ではスキャンしたPDFファイル）を開きます。
ドキュメントの右ペインから「Edit PDF」を選択します。
これはAdobe Reader OCR PDFツールのインターフェースを開きます。
上部のリボンにある「編集」ボタンをクリックします。
これは、スキャンされたPDFドキュメントを完全に編集可能なPDFドキュメントに変換します。 PDFファイル自身でテキストおよび画像ファイルを編集することができます。
テキストブロックの位置やテキストフォントなども変更できます。

変更を加えた後、ファイルを保存すると、これらの変更がドキュメントに反映されます。

IronOCR: .NET OCRライブラリ

IronOCRは、.NETのOCRライブラリおよびOCRツールであり、テキスト文書や画像を機械判読可能な形式に変換して読み取ることができます。

この光学文字認識ライブラリは、以下の点を考慮して開発されました:

さまざまな言語に対応でき、外部ソフトウェアを必要としない頑丈で正確なOCRエンジンの必要性。
Windows、Linux、およびmacOSなどの異なるプラットフォームで動作する使いやすいAPIの必要性。
さまざまな.NETアプリケーションに簡単に統合でき、WPFおよびコンソールアプリの両方をサポートするOCRエンジンの必要性。

IronOCRは、開発者がドキュメントのスキャンをサポートするソフトウェアを作成し、テキストとメタデータを抽出し、スキャンされた画像ファイルを索引付けし、画像を検索可能なPDFに変換し、スキャンされたドキュメントを読み取り可能なテキストに変換するのを容易にします。 IronOCRは、エンコーディング、画像フォーマットの変換、テキストの認識および抽出に関して多くのオプションを提供します。 IronOCRは125の言語をサポートしています。

IronOCRは、スキャンしたドキュメント、写真、スクリーンショットからテキストを認識するための直感的で堅牢かつ高精度なOCRプロセスを提供し、ページセグメンテーションやレイアウト解析といった時間のかかる作業を削減します。ライブラリはC#で開発されており、そのAPI設計はシンプルで可読性が高いです。

IronOCRを使用したコード例をいくつか見てみましょう。

コード例

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

IronOCRは、PDFドキュメント全体または選択したページ範囲のOCRを行うオプションを提供します。

PDFファイル（入力）

コンソールに出力

IronOCRを使用して、PDFを選択可能なPDFに変換できます。それは非常に簡単でわかりやすいです。以下のPDF変換のコードスニペットをご覧ください:

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using

$vbLabelText $csharpLabel

IronOCRは多くの他のツールと機能を提供します。 IronOCRの機能を探るには、次のリンクを訪れてください。

結論

IronOCRライブラリは、市場に出回っている他のライブラリに比べていくつかの利点があります。ほんの数行のコードで独自のモジュールを追加することにより、機能を修正および拡張することができます。 IronOCRは現在、125以上の言語でテキストを読み取ることができます。他のライブラリと比較して、はるかに短時間でメモリリソースを大幅に節約しながら、より高品質で信頼性の高い結果を生成するように開発されています。

IronOCRは開発用に無料です。 IronOCRは、無料トライアルも提供しており、製品でのテストが可能です。 IronOCRの価格と無料トライアルの詳細については、リンクをご覧ください。

カンナパット・ウドンパント

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。

< 以前
PDFからのOCR（無料オンラインツール）

次へ >
中国語に最適なOCR（無料およびオンラインツール）