OCRツール

PDFからのOCR(無料オンラインツール)

公開済み 2023年1月15日
共有:

光学文字認識(OCR)は、画像内のテキストを認識するために使用される技術です。 この技術は、印刷されたテキストや画像ファイルをスキャンして、コンピューター上で認識するために作成されました。 これは、今日では、多くのものがデジタル化されているためです。例えば、メールや本などが挙げられます。 しかし、OCR技術は、ノイズやJPEG圧縮などの一般的な歪みによってテキストが歪んでいても、さまざまなフォントでテキストを認識できる高度なアルゴリズムを持つ、より洗練されたものに進化しました。 OCRは用紙上の手書き文字も98%の精度で読み取ることができます。

スキャンされたテキストは、OCRを使用して編集、索引付け、検索、印刷、およびアーカイブすることができます。 OCR ソフトウェアは、ヘルスケア、製薬、保険、および法律業界で広く使用されています。 それは紙の文書をデジタル文書に変換するのに役立ち、それによって再利用がより容易になり、他者と共有することができます。

さまざまなツールを使用してPDFファイルのOCRをどのように行うか見てみましょう。

アドビ アクロバット プロ

AdobeはPDFを最初に開発した会社です。 彼らは、任意のPDFドキュメントを編集できる高速で効率的なOCRエンジンを提供しています。 市場で最も強力なOCRエンジンの一つであり、多くのPDFを編集する必要がある場合は、Adobe Acrobat DCを購入するべきです。 このソフトウェアは、どんなテキストベースのドキュメントでも高い精度でPDF形式に変換できるように設計されています。 カスタムフォントジェネレーターを使用して、元のドキュメントのフォントをそのまま保持します。

Adobe Acrobatを使用してPDF OCRを行う方法を見てみましょう:

  • ファイルをAdobe Acrobat Pro DCで開いてください。
  • 右側のペインにある「Edit PDF」オプションをクリックします。
    PDFからOCRフリーオンラインツール - 図1

  • そのOCR機能を使用して、PDFファイルを編集可能なPDFに変換します。
  • 今、ドキュメント内のテキストを編集し、画像ファイルを簡単に変更できます。

    PDFからのOCR無料オンラインツール - 図2

  • 「ファイル > 名前を付けて保存」を選択し、新しいPDFドキュメントに適切な名前を付けてファイルを保存できます。

    複数のスキャンされたPDFドキュメントのOCR処理を一度に簡単に行うことができます。

セジダ

Sejdaは、クラウドにホストされるか、macOS、Windows、またはLinux用のデスクトップアプリケーションとしてダウンロードできるOCR対応のPDF編集ソフトウェアです。 Sejdaは、ユーザーがPDFファイルを圧縮、編集、デジタル署名、結合、および記入することを可能にします。 JPEGやExcelなど、さまざまな形式のファイルをPDFファイルに変換できます。 PDFは同様に、WordやPowerPointのドキュメントなどの他の形式に変換することができます。 PDFドキュメントのOCRをSejda OCRを使用してどのように行うか見てみましょう。

  • 開く Sejda OCR ウェブサイト.
  • ファイルをアップロードするには、「PDFファイルをアップロード」ボタンをクリックするか、コンピュータからファイルをドラッグ&ドロップしてください。
  • アップロード後、アップロードされたファイル名が表示されます。 ドキュメントの言語を選択してください。

    オンラインツールからPDFのOCR - 図3

  • 言語を選択した後、出力形式を選択する必要があります。 「PDF」または「テキスト」を選択できます。 出力フォーマットを設定した後、「全ページのテキストを認識」ボタンをクリックしてください。 テキストの抽出を開始します。

    PDFからOCR 無料オンラインツール - 図4

  • プロセスが完了したら、抽出されたテキストをダウンロードできます。
    PDFからの無料オンラインOCRツール - 図5

    申し訳ありませんが、質問に少し不明な点があります。翻訳するために指定されたコンテンツは「## SodaPDF」のみですか?それとも、追加で翻訳するテキストがありますか?明確にしていただければ、最適な翻訳を提供することができます。お手数ですが、再度確認をお願いします。

SodaPDF OCRは、画像からテキストを抽出できる無料のオンラインOCRソフトウェアです。 スキャンした文書、ファックス、その他の印刷物を編集可能なテキスト、PDF、および検索可能なPDFに変換するPDF OCR変換ツールです。 SodaPDF OCR の最も一般的な使用例は、スキャンした文書やファックスを編集可能なファイルに変換することです。 これは無料のオンラインOCRソフトウェアです。 アップロードされたすべてのドキュメントは、特定の時間経過後にサーバーから自動的に削除されます。PDFをMicrosoft Wordで開けるWordに変換する機能など、複数の機能を備えています。

SodaPDFを使用してPDFでOCRを実行する方法を見てみましょう:

  • 以下を日本語に翻訳しました:

開く SodaPDF ウェブサイト。

  • 「ファイルを選択」ボタンをクリックし、アップロードするPDFドキュメントを選択してください。
  • アップロード後、PDFのテキストと画像を編集するためのユーザーインターフェースが表示されます。 ダウンロードボタンを使用してファイルをダウンロードできます。
    PDFからのOCR 無料オンラインツール - 図6

IronOCR: .NET OCRライブラリ

IronOCRは、.NET Frameworkにおいて最高のOCRライブラリです。 以下の機能を備えた堅牢なAPIを提供します: テキストや画像の操作、リアルタイム認識、フィールド検出、スキャンされたPDFファイルの光学式文字認識(OCR)など多くの機能があります。 IronPDFはスキャンした文書を編集することもできます。

IronOCR 開発者にアプリケーション内で文字認識の力を与えます。 スキャンしたドキュメントをデジタルフォーマットに変換したり、画像上のキャプションを認識したりするなど、様々な用途に使用できます。 IronOCR .NET ライブラリは、IronOCR SDK への使いやすい低レベルインターフェースを提供します。 その上、IronOCRをより便利に使用するためのいくつかの機能も備えています。 例えば、このライブラリには低DPI画像を自動的に処理し、PDF文書からテキストを抽出する画像処理パイプラインが含まれています。

OCRツールを使用してPDFファイルのOCRを行う方法を見てみましょう:

PDFファイル全体のOCR

以下のコードは、PDFドキュメント全体に対してOCRを実行することができます。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

PDFの選択したページのOCR

選択されたPDFページにOCRを実行するには、AddPdfPages関数を使用できます。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

検索可能なPDFに変換する

IronOCRを使用して、SaveAsSearchablePdf関数でPDFファイルを検索可能なPDFファイルに変換することができます。

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

結論

光学文字認識を行うためのいくつかの優れたソフトウェアツールを調査しました。 これらのツールを使用すると、プログラムによってテキストを認識し、検索可能かつ編集可能なPDFを作成できます。

.NET Frameworkで記述する場合、IronOCRをお勧めします。 IronOCRを使用すると、.NET Frameworkで簡単にOCRを実行できます。 強力なため、元の文書が損傷や歪みを受けた場合でも、たとえば水による損傷があっても簡単に使用できます。

もう一つの使用例は、手書きで記入された古い紙のフォーム、例えば請求書や販売伝票をデジタル版に変換することです。 これにより、これらの文書を会計ソフトウェアで自動的に処理できるため、正確性と効率性が向上します。

< 以前
Tesseractのインストール(画像付きステップバイステップチュートリアル)
次へ >
PDFをOCRする方法チュートリアル(無料オンラインツール)