PDFからのOCR(無料のオンラインツール)
光学式文字認識(OCR)は、画像内のテキストを認識するために使用される技術です。 この技術は、印刷されたテキストや画像ファイルをスキャンし、コンピューター上で認識するために作成されました。 これは、電子メールや書籍など、今日では多くのものがデジタル化されているためです。 しかし、OCR テクノロジは、ノイズや JPEG 圧縮などの一般的な歪みによって歪んでいても、さまざまなフォントのテキストを認識できる特殊なアルゴリズムを備えた、より高度なものへと進化しました。 OCR は紙に書かれた手書き文字も 98% の精度で読み取ることができます。
OCR を使用してスキャンされたテキストは、編集、インデックス作成、検索、印刷、アーカイブできます。 OCR ソフトウェアは、医療、製薬、保険、法律業界で広く使用されています。 紙の文書をデジタル文書に変換して、より簡単に再利用したり他のユーザーと共有したりできるようになります。
さまざまなツールを使用して PDF ファイルの OCR を実行する方法を見てみましょう。
Adobe Acrobat Pro
Adobe は PDF を最初に開発した会社です。 あらゆる PDF ドキュメントを編集できる、高速で効率的な OCR エンジンを提供します。 これは市場で最も強力な OCR エンジンの 1 つであり、編集する PDF が大量にある場合は、Adobe Acrobat DC を購入する必要があります。 このソフトウェアは、あらゆるテキストベースの文書を非常に正確に PDF 形式に変換できるように設計されています。 また、カスタム フォント ジェネレーターを使用して元のドキュメントのフォントも保持します。
Adobe Acrobat を使用して PDF OCR を実行する方法を見てみましょう。
- Adobe Acrobat Pro DC でファイルを開きます。
-
右側のペインにある"PDF 編集"オプションをクリックします。
- OCR 機能を使用して PDF ファイルを編集可能な PDF に変換します。
-
これで、ドキュメント内のテキストを編集したり、画像ファイルを簡単に変更したりできるようになりました。
- "ファイル > 名前を付けて保存"を選択し、新しい PDF ドキュメントに適切な名前を付けることで、ファイルを保存できます。
スキャンした複数の PDF ドキュメントの OCR を一度に簡単に実行できます。
サイダ
Sejda は、クラウド上でホストしたり、macOS、Windows、Linux にデスクトップ アプリケーションとしてダウンロードしたりできる、OCR 対応の PDF 編集ソフトウェアです。 Sejda を使用すると、ユーザーは PDF ファイルを圧縮、編集、デジタル署名、結合、入力できます。 JPEG や Excel など、さまざまな形式のファイルを PDF ファイルに変換できます。 PDF も同様に、Word や PowerPoint ドキュメントなどの他の形式に変換できます。 Sejda OCR を使用して PDF ドキュメントの OCR を実行する方法を見てみましょう。
- Open Sejda OCR website.
- "PDF ファイルをアップロード"ボタンをクリックしてファイルをアップロードするか、コンピューターからファイルをドラッグ アンド ドロップします。
-
アップロード後、アップロードしたファイル名が表示されます。 ドキュメントの言語を選択してください。
-
言語を選択したら、出力形式を選択する必要があります。 "PDF"または"テキスト"を選択できます。 出力形式を設定したら、"すべてのページのテキストを認識する"ボタンをクリックします。 テキストの抽出が始まります。
-
処理が完了すると、抽出されたテキストをダウンロードできます。
ソーダPDF
SodaPDF OCR は、画像からテキストを抽出できる無料のオンライン OCR ソフトウェアです。 これは、スキャンした文書、ファックス、その他の印刷物を編集可能なテキスト、PDF、検索可能な PDF に変換する PDF OCR 変換ツールです。 SodaPDF OCR の最も一般的な使用例は、スキャンした文書またはファックスを編集可能なファイルに変換することです。 無料のオンラインOCRソフトウェアです。 アップロードされたすべてのドキュメントは、一定時間後にサーバーから自動的に削除されます。PDFをWordに変換するなど、Microsoft Wordで開くことができる機能も多数備えています。
SodaPDF を使用して PDF で OCR を実行する方法を見てみましょう。
- Open the SodaPDF website.
- "ファイルを選択"ボタンをクリックし、アップロードする PDF ドキュメントを選択します。
-
アップロード後、PDF のテキストと画像を編集するためのユーザー インターフェイスが表示されます。 "ダウンロード"ボタンを使用してファイルをダウンロードできます。
IronOCR: .NET OCRライブラリ
IronOCR は、.NET Framework の OCR 用の堅牢なライブラリです。 テキストや画像を操作するための強力な API を提供し、スキャンされた PDF ファイルのリアルタイム認識、フィールド検出、光学式文字認識などの機能を提供します。 IronPDF ではスキャンしたドキュメントを編集することもできます。
IronOCR は、開発者にアプリケーション内でのテキスト認識機能を提供します。 スキャンした文書をデジタル形式に変換したり、画像のキャプションを認識したりするなど、さまざまな目的に使用できます。 IronOCR .NET ライブラリは、IronOCR SDK への使いやすい低レベル インターフェイスを提供します。 さらに、低 DPI 画像を自動的に処理し、PDF ドキュメントからテキストを抽出する画像処理パイプラインも含まれています。
OCR ツールを使用して PDF ファイルの OCR を実行する方法を見てみましょう。
完全な PDF ファイルの OCR
次のコードは、PDF ドキュメント全体に対して OCR を実行できます。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add the entire PDF document for OCR processing
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
// Print the extracted text to the console
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add the entire PDF document for OCR processing
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
// Print the extracted text to the console
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add the entire PDF document for OCR processing
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
' Print the extracted text to the console
Console.WriteLine(Result.Text)
End Using
PDF の選択したページの OCR
AddPdfPages 関数を使用すると、選択した PDF ページに対して OCR を実行できます。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add specific pages of the PDF document for OCR processing
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
// Print the extracted text to the console
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add specific pages of the PDF document for OCR processing
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
// Print the extracted text to the console
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add specific pages of the PDF document for OCR processing
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
' Print the extracted text to the console
Console.WriteLine(Result.Text)
End Using
PDFを検索可能なPDFに変換する
IronOCR のSaveAsSearchablePdf 関数を使用すると、PDF ファイルを検索可能な PDF ファイルに変換できます。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add the PDF for processing and specify the password if any
Input.AddPdf("scan.pdf", "password");
// Correct twisted or skewed pages
Input.Deskew();
var Result = Ocr.Read(Input);
// Save the processed result as a searchable PDF
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Add the PDF for processing and specify the password if any
Input.AddPdf("scan.pdf", "password");
// Correct twisted or skewed pages
Input.Deskew();
var Result = Ocr.Read(Input);
// Save the processed result as a searchable PDF
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Add the PDF for processing and specify the password if any
Input.AddPdf("scan.pdf", "password")
' Correct twisted or skewed pages
Input.Deskew()
Dim Result = Ocr.Read(Input)
' Save the processed result as a searchable PDF
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
結論
私たちは、光学文字認識を実行するための優れたソフトウェア ツールをいくつか調査しました。 これらのツールを使用すると、プログラムでテキストを認識し、検索および編集可能な PDF を作成できます。
.NET Framework で記述する場合は、IronOCR をお勧めします。 IronOCR を使用すると、.NET Framework で簡単に OCR を実行できます。 強力なので、水害などで元の文書が破損または歪んだ場合でも簡単に使用できます。
もう 1 つの使用例としては、請求書や領収書など、手書きで記入されていた古い紙のフォームをデジタル バージョンに変換することが挙げられます。 これにより、これらの文書は会計ソフトウェアによって自動的に処理されるようになり、正確性と効率性が向上します。




