フッターコンテンツにスキップ
OCRツール

PDFからのOCR(無料のオンラインツール)

光学文字認識、またはOCRは、画像内のテキストを認識するために使用される技術です。 この技術は、印刷されたテキストや画像ファイルをスキャンしてコンピュータで認識するために作られました。 これは、今日多くのものが電子メールや本のようにデジタルであるためです。 しかし、OCR技術は進化を遂げ、ノイズや他の一般的な歪み(JPEG圧縮など)によって歪められたとしても、さまざまなフォントのテキストを認識できる専門的なアルゴリズムを備えたより洗練されたものになりました。 OCRは、手書きの文字も98%の精度で読み取ることができます。

OCRを使用してスキャンされたテキストは、その後編集、索引付け、検索、印刷、およびアーカイブできます。 OCRソフトウェアは、医療、製薬、保険、法律の業界で広く使用されています。 紙の文書をデジタル文書に変換し、より簡単に再利用したり、他者と共有したりするのに役立ちます。

PDFファイルのOCRを異なるツールでどのように行うか見てみましょう。

Adobe Acrobat Pro

Adobeは、最初にPDFを開発した会社です。 彼らは、任意のPDFドキュメントを編集できる迅速で効率的なOCRエンジンを提供しています。 これは市場で最も強力なOCRエンジンのひとつであり、多くのPDFを編集する必要がある場合、Adobe Acrobat DCを購入するのが良いです。 このソフトウェアは、あらゆるテキストベースのドキュメントをPDF形式に高い精度で変換できるように設計されています。 また、カスタムフォントジェネレーターを使用して、元のドキュメントのフォントを保持します。

Adobe Acrobatを使用してPDFのOCRをどのように行うか見てみましょう:

  • Adobe Acrobat Pro DCでファイルを開きます。
  • 右側のペインで"PDFを編集"オプションをクリックします。

    OCR From PDF Free Online Tools - Figure 1

  • OCR機能を使用してPDFファイルを編集可能なPDFに変換します。
  • 今、テキストを編集し、画像ファイルを簡単に変更できます。

    OCR From PDF Free Online Tools - Figure 2

  • "ファイル > 名前を付けて保存"を選択して、PDF文書に適した名前を付けて保存できます。

複数のスキャンされたPDF文書のOCRを一度に簡単に実行できます。

Sejda

Sejdaはクラウドでホストすることも、macOS、Windows、LinuxにデスクトップアプリケーションとしてダウンロードすることもできるOCR対応PDF編集ソフトウェアです。 Sejdaは、PDFファイルを圧縮、編集、デジタル署名、結合、および記入することを可能にします。 JPEGやExcelなど、さまざまな形式のファイルをPDFファイルに変換できます。 PDFは同様に、WordやPowerPoint文書など他の形式にも変換できます。 Sejda OCRを使用してPDF文書のOCRをどのように行うか見てみましょう。

  • Open Sejda OCR website.
  • "PDFファイルをアップロード"ボタンをクリックしてファイルをアップロードするか、パソコンからドラッグ&ドロップします。
  • アップロード後、アップロードされたファイル名が表示されます。 ドキュメントの言語を選択します。

    OCR From PDF Free Online Tools - Figure 3

  • 言語を選択した後、出力形式を選択する必要があります。 "PDF"または"テキスト"を選択できます。 出力形式を設定したら、"すべてのページのテキストを認識"ボタンをクリックします。 テキストの抽出を開始します。

    OCR From PDF Free Online Tools - Figure 4

  • 処理が完了したら、抽出されたテキストをダウンロードできます。

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCRは、画像からテキストを抽出できる無料オンラインOCRソフトウェアです。 これは、スキャンされた文書、ファックス、およびその他の印刷物を編集可能なテキスト、PDF、および検索可能なPDFに変換するPDF OCR変換ツールです。 SodaPDF OCRの最も一般的な使用例は、スキャンされた文書やファックスを編集可能なファイルに変換することです。 これは無料のオンラインOCRソフトウェアです。 すべてのアップロードされた文書は、特定の時間経過後にサーバーから自動的に削除されます。PDFからWordへの変換など、Microsoft Wordで開けるようになる多くの機能があります。

SodaPDFを使用してPDFのOCRをどのように行うか見てみましょう:

  • Open the SodaPDF website.
  • "ファイル選択"ボタンをクリックして、アップロードしたいPDF文書を選択します。
  • アップロード後、PDFテキストと画像を編集するためのユーザーインターフェイスが表示されます。 ダウンロードボタンを使用してファイルをダウンロードできます。

    OCR From PDF Free Online Tools - Figure 6

IronOCR: .NET OCRライブラリ

IronOCRは、.NET Framework用の強力なOCRライブラリです。 テキストと画像を扱う強力なAPIを提供し、リアルタイム認識、フィールド検出、スキャンされたPDFファイルの光学文字認識などの機能を提供します。 IronPDFもスキャンされた文書の編集が可能です。

IronOCRは、アプリケーション内でテキスト認識の力を開発者に提供します。 さまざまな目的で使用でき、スキャンされた文書をデジタル形式に変換したり、画像のキャプションを認識したりできます。 IronOCR .NETライブラリは、使いやすい低レベルのインターフェースをIronOCR SDKに提供します。 それに加え、低DPI画像を自動で処理し、PDF文書からテキストを抽出する画像処理パイプラインを含んでいます。

OCRツールを使用してPDFファイルのOCRをどのように行うか見てみましょう:

完全なPDFファイルのOCR

次のコードは、PDF全体の文書でOCRを実行できます。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the entire PDF document for OCR processing
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

選択したPDFページのOCR

AddPdfPages関数を使用して選択したPDFページのOCRを行うことができます。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add specific pages of the PDF document for OCR processing
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

PDFを検索可能なPDFに変換

IronOCRを使用してSaveAsSearchablePdf機能でPDFファイルを検索可能なPDFファイルに変換できます。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the PDF for processing and specify the password if any
	Input.AddPdf("scan.pdf", "password")

	' Correct twisted or skewed pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	' Save the processed result as a searchable PDF
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

結論

光学文字認識を実行するためのいくつかの優れたソフトウェアツールを探りました。 これらのツールを使用すると、プログラムでテキストを認識し、検索可能かつ編集可能なPDFを作成できます。

.NET Frameworkで記述する場合、IronOCRが推奨です。 IronOCRは.NET Frameworkで簡単にOCRを実行でき、元の文書が水濡れなどで損傷や歪みがあっても容易に使用できるほど強力です。 他の用途として、手書きで記入された古い紙のフォーム(請求書や販売受領書など)をデジタルバージョンに変換することが挙げられます。

これにより、これらの文書を会計ソフトウェアによって自動的に処理でき、精度と効率が向上します。 This allows these documents to be processed automatically by accounting software, thereby increasing accuracy and efficiency.

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。