ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
光学文字認識(OCR)は、画像内のテキストを認識するために使用される技術です。 この技術は、印刷されたテキストや画像ファイルをスキャンして、コンピューター上で認識するために作成されました。 これは、今日では、多くのものがデジタル化されているためです。例えば、メールや本などが挙げられます。 しかし、OCR技術は、ノイズやJPEG圧縮などの一般的な歪みによってテキストが歪んでいても、さまざまなフォントでテキストを認識できる高度なアルゴリズムを持つ、より洗練されたものに進化しました。 OCRは用紙上の手書き文字も98%の精度で読み取ることができます。
スキャンされたテキストは、OCRを使用して編集、索引付け、検索、印刷、およびアーカイブすることができます。 OCR ソフトウェアは、ヘルスケア、製薬、保険、および法律業界で広く使用されています。 それは紙の文書をデジタル文書に変換するのに役立ち、それによって再利用がより容易になり、他者と共有することができます。
さまざまなツールを使用してPDFファイルのOCRをどのように行うか見てみましょう。
AdobeはPDFを最初に開発した会社です。 彼らは、任意のPDFドキュメントを編集できる高速で効率的なOCRエンジンを提供しています。 市場で最も強力なOCRエンジンの一つであり、多くのPDFを編集する必要がある場合は、Adobe Acrobat DCを購入するべきです。 このソフトウェアは、どんなテキストベースのドキュメントでも高い精度でPDF形式に変換できるように設計されています。 カスタムフォントジェネレーターを使用して、元のドキュメントのフォントをそのまま保持します。
Adobe Acrobatを使用してPDF OCRを行う方法を見てみましょう:
今、ドキュメント内のテキストを編集し、画像ファイルを簡単に変更できます。
「ファイル > 名前を付けて保存」を選択し、新しいPDFドキュメントに適切な名前を付けてファイルを保存できます。
複数のスキャンされたPDFドキュメントのOCR処理を一度に簡単に行うことができます。
Sejdaは、クラウドにホストされるか、macOS、Windows、またはLinux用のデスクトップアプリケーションとしてダウンロードできるOCR対応のPDF編集ソフトウェアです。 Sejdaは、ユーザーがPDFファイルを圧縮、編集、デジタル署名、結合、および記入することを可能にします。 JPEGやExcelなど、さまざまな形式のファイルをPDFファイルに変換できます。 PDFは同様に、WordやPowerPointのドキュメントなどの他の形式に変換することができます。 PDFドキュメントのOCRをSejda OCRを使用してどのように行うか見てみましょう。
アップロード後、アップロードされたファイル名が表示されます。 ドキュメントの言語を選択してください。
言語を選択した後、出力形式を選択する必要があります。 「PDF」または「テキスト」を選択できます。 出力フォーマットを設定した後、「全ページのテキストを認識」ボタンをクリックしてください。 テキストの抽出を開始します。
申し訳ありませんが、質問に少し不明な点があります。翻訳するために指定されたコンテンツは「## SodaPDF」のみですか?それとも、追加で翻訳するテキストがありますか?明確にしていただければ、最適な翻訳を提供することができます。お手数ですが、再度確認をお願いします。
SodaPDF OCRは、画像からテキストを抽出できる無料のオンラインOCRソフトウェアです。 スキャンした文書、ファックス、その他の印刷物を編集可能なテキスト、PDF、および検索可能なPDFに変換するPDF OCR変換ツールです。 SodaPDF OCR の最も一般的な使用例は、スキャンした文書やファックスを編集可能なファイルに変換することです。 これは無料のオンラインOCRソフトウェアです。 アップロードされたすべてのドキュメントは、特定の時間経過後にサーバーから自動的に削除されます。PDFをMicrosoft Wordで開けるWordに変換する機能など、複数の機能を備えています。
SodaPDFを使用してPDFでOCRを実行する方法を見てみましょう:
開く SodaPDF ウェブサイト。
IronOCRは、.NET Frameworkにおいて最高のOCRライブラリです。 以下の機能を備えた堅牢なAPIを提供します: テキストや画像の操作、リアルタイム認識、フィールド検出、スキャンされたPDFファイルの光学式文字認識(OCR)など多くの機能があります。 IronPDFはスキャンした文書を編集することもできます。
IronOCR開発者にアプリケーション内で文字認識の力を与えます。 スキャンしたドキュメントをデジタルフォーマットに変換したり、画像上のキャプションを認識したりするなど、様々な用途に使用できます。 IronOCR .NET ライブラリは、IronOCR SDK への使いやすい低レベルインターフェースを提供します。 その上、IronOCRをより便利に使用するためのいくつかの機能も備えています。 例えば、このライブラリには低DPI画像を自動的に処理し、PDF文書からテキストを抽出する画像処理パイプラインが含まれています。
OCRツールを使用してPDFファイルのOCRを行う方法を見てみましょう:
以下のコードは、PDFドキュメント全体に対してOCRを実行することができます。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
選択されたPDFページにOCRを実行するには、AddPdfPages
関数を使用できます。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
IronOCRを使用して、SaveAsSearchablePdf
関数でPDFファイルを検索可能なPDFファイルに変換することができます。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf", "password") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
光学文字認識を行うためのいくつかの優れたソフトウェアツールを調査しました。 これらのツールを使用すると、プログラムによってテキストを認識し、検索可能かつ編集可能なPDFを作成できます。
.NET Frameworkで記述する場合、IronOCRをお勧めします。 IronOCRを使用すると、.NET Frameworkで簡単にOCRを実行できます。 強力なため、元の文書が損傷や歪みを受けた場合でも、たとえば水による損傷があっても簡単に使用できます。
もう一つの使用例は、手書きで記入された古い紙のフォーム、例えば請求書や販売伝票をデジタル版に変換することです。 これにより、これらの文書を会計ソフトウェアで自動的に処理できるため、正確性と効率性が向上します。
9つの .NET API製品 オフィス文書用