OCRツール

PDFからのOCR（無料オンラインツール）

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

カンナパット・ウドンパント

2023年1月15日

共有:

光学文字認識（OCR）は、画像内のテキストを認識するために使用される技術です。この技術は、印刷されたテキストや画像ファイルをスキャンして、コンピューター上で認識するために作成されました。これは、今日では、多くのものがデジタル化されているためです。例えば、メールや本などが挙げられます。しかし、OCR技術は、ノイズやJPEG圧縮などの一般的な歪みによってテキストが歪んでいても、さまざまなフォントでテキストを認識できる高度なアルゴリズムを持つ、より洗練されたものに進化しました。 OCRは用紙上の手書き文字も98%の精度で読み取ることができます。

スキャンされたテキストは、OCRを使用して編集、索引付け、検索、印刷、およびアーカイブすることができます。 OCR ソフトウェアは、ヘルスケア、製薬、保険、および法律業界で広く使用されています。それは紙の文書をデジタル文書に変換するのに役立ち、それによって再利用がより容易になり、他者と共有することができます。

さまざまなツールを使用してPDFファイルのOCRをどのように行うか見てみましょう。

アドビアクロバットプロ

AdobeはPDFを最初に開発した会社です。彼らは、任意のPDFドキュメントを編集できる高速で効率的なOCRエンジンを提供しています。市場で最も強力なOCRエンジンの一つであり、多くのPDFを編集する必要がある場合は、Adobe Acrobat DCを購入するべきです。このソフトウェアは、どんなテキストベースのドキュメントでも高い精度でPDF形式に変換できるように設計されています。カスタムフォントジェネレーターを使用して、元のドキュメントのフォントをそのまま保持します。

Adobe Acrobatを使用してPDF OCRを行う方法を見てみましょう:

ファイルをAdobe Acrobat Pro DCで開いてください。
右側のペインにある「Edit PDF」オプションをクリックします。
そのOCR機能を使用して、PDFファイルを編集可能なPDFに変換します。
今、ドキュメント内のテキストを編集し、画像ファイルを簡単に変更できます。
「ファイル > 名前を付けて保存」を選択し、新しいPDFドキュメントに適切な名前を付けてファイルを保存できます。

複数のスキャンされたPDFドキュメントのOCR処理を一度に簡単に行うことができます。

セジダ

Sejdaは、クラウドにホストされるか、macOS、Windows、またはLinux用のデスクトップアプリケーションとしてダウンロードできるOCR対応のPDF編集ソフトウェアです。 Sejdaは、ユーザーがPDFファイルを圧縮、編集、デジタル署名、結合、および記入することを可能にします。 JPEGやExcelなど、さまざまな形式のファイルをPDFファイルに変換できます。 PDFは同様に、WordやPowerPointのドキュメントなどの他の形式に変換することができます。 PDFドキュメントのOCRをSejda OCRを使用してどのように行うか見てみましょう。

Sejda OCRのウェブサイトを開く。
ファイルをアップロードするには、「PDFファイルをアップロード」ボタンをクリックするか、コンピュータからファイルをドラッグ＆ドロップしてください。
アップロード後、アップロードされたファイル名が表示されます。ドキュメントの言語を選択してください。
言語を選択した後、出力形式を選択する必要があります。「PDF」または「テキスト」を選択できます。出力フォーマットを設定した後、「全ページのテキストを認識」ボタンをクリックしてください。テキストの抽出を開始します。
プロセスが完了したら、抽出されたテキストをダウンロードできます。

SodaPDF

SodaPDF OCRは、画像からテキストを抽出できる無料のオンラインOCRソフトウェアです。スキャンした文書、ファックス、その他の印刷物を編集可能なテキスト、PDF、および検索可能なPDFに変換するPDF OCR変換ツールです。 SodaPDF OCR の最も一般的な使用例は、スキャンした文書やファックスを編集可能なファイルに変換することです。これは無料のオンラインOCRソフトウェアです。アップロードされたすべてのドキュメントは、特定の時間経過後にサーバーから自動的に削除されます。PDFをMicrosoft Wordで開けるWordに変換する機能など、複数の機能を備えています。

SodaPDFを使用してPDFでOCRを実行する方法を見てみましょう:

[SodaPDF](https://www.sodapdf.com/ocr-pdf/" target="_blank" rel="nofollow noopener noreferrer) のウェブサイトを開く。
「ファイルを選択」ボタンをクリックし、アップロードするPDFドキュメントを選択してください。
アップロード後、PDFのテキストと画像を編集するためのユーザーインターフェースが表示されます。ダウンロードボタンを使用してファイルをダウンロードできます。

IronOCR: .NET OCRライブラリ

IronOCRは、.NET Frameworkにおいて最高のOCRライブラリです。以下の機能を備えた堅牢なAPIを提供します: テキストや画像の操作、リアルタイム認識、フィールド検出、スキャンされたPDFファイルの光学式文字認識（OCR）など多くの機能があります。 IronPDFはスキャンした文書を編集することもできます。

IronOCRは、開発者にアプリケーション内でテキスト認識の力を提供します。スキャンしたドキュメントをデジタルフォーマットに変換したり、画像上のキャプションを認識したりするなど、様々な用途に使用できます。 IronOCR .NET ライブラリは、IronOCR SDK への使いやすい低レベルインターフェースを提供します。その上、IronOCRをより便利に使用するためのいくつかの機能も備えています。例えば、このライブラリには低DPI画像を自動的に処理し、PDF文書からテキストを抽出する画像処理パイプラインが含まれています。

OCRツールを使用してPDFファイルのOCRを行う方法を見てみましょう：

PDFファイル全体のOCR

以下のコードは、PDFドキュメント全体に対してOCRを実行することができます。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

PDFの選択したページのOCR

選択したPDFページでOCRを実行するには、AddPdfPages 関数を使用できます。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

検索可能なPDFに変換する

IronOCR を使用して、SaveAsSearchablePdf 関数を使うことで、PDF ファイルを検索可能な PDF ファイルに変換できます。

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using

$vbLabelText $csharpLabel

結論

光学文字認識を行うためのいくつかの優れたソフトウェアツールを調査しました。これらのツールを使用すると、プログラムによってテキストを認識し、検索可能かつ編集可能なPDFを作成できます。

.NET Frameworkで記述する場合、IronOCRをお勧めします。 IronOCRを使用すると、.NET Frameworkで簡単にOCRを実行できます。強力なため、元の文書が損傷や歪みを受けた場合でも、たとえば水による損傷があっても簡単に使用できます。

もう一つの使用例は、手書きで記入された古い紙のフォーム、例えば請求書や販売伝票をデジタル版に変換することです。これにより、これらの文書を会計ソフトウェアで自動的に処理できるため、正確性と効率性が向上します。

カンナパット・ウドンパント

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。

< 以前
Tesseractのインストール（画像付きステップバイステップチュートリアル）

次へ >
PDFをOCRする方法チュートリアル（無料オンラインツール）