検索可能なPDFとして結果を保存する方法

This article was translated from English: Does it need improvement?
Translated
View the article in English

によって チャクニット・ビン

検索可能なPDF、しばしばOCRと呼ばれています (光学文字認識) PDFは、スキャンした画像と機械可読テキストの両方を含むPDFドキュメントの一種です。 これらのPDFは、スキャンされた紙のドキュメントや画像にOCRを実行することによって作成され、画像内のテキストを認識し、選択可能で検索可能なテキストに変換します。

IronOCRは、文書の光学文字認識を行い、その結果を検索可能なPDFとしてエクスポートするためのソリューションを提供します。 ファイル、バイト、ストリームとして検索可能なPDFのエクスポートをサポートします。


OCR 用 C# NuGet ライブラリ

でインストール NuGet

Install-Package IronOcr
または
Java PDF JAR(ジャバPDF JAR)

ダウンロード DLL (ディーエルエル)

DLLをダウンロード

プロジェクトに手動でインストールする

OCR 用 C# NuGet ライブラリ

でインストール NuGet

Install-Package IronOcr
または
Java PDF JAR(ジャバPDF JAR)

ダウンロード DLL (ディーエルエル)

DLLをダウンロード

プロジェクトに手動でインストールする

今日からプロジェクトでIronPDFを使い始めましょう。無料のトライアルをお試しください。

最初のステップ:
green arrow pointer

チェックアウト IronOCR オン Nuget 迅速なインストールと展開のために。8百万以上のダウンロード数により、OCRをC#で変革しています。

OCR 用 C# NuGet ライブラリ nuget.org/packages/IronOcr/
Install-Package IronOcr

インストールを検討してください IronOCR DLL 直接。ダウンロードして、プロジェクトまたはGACの形式で手動でインストールしてください。 IronOcr.zip

プロジェクトに手動でインストールする

DLLをダウンロード

検索可能なPDFとしてエクスポート例

結果を検索可能なPDFとしてエクスポートするには、ユーザーはまずConfiguration.RenderSearchablePdfプロパティをtrueに設定する必要があります。 ReadメソッドからOCR結果オブジェクトを取得した後、出力ファイルパスを指定してSaveAsSearchablePdfメソッドを使用します。 以下に示すコードは次のものを使用してこれを示しています サンプルTIFF ファイル。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
VB   C#

以下は、サンプルTIFFと埋め込み可能な検索対応PDFのスクリーンショットです。 検索可能なPDFを選択して、テキストが選択可能かどうかを確認してみてください。 選択可能なテキストは、PDFビューアソフトウェアでの検索機能も可能にします。

次の内容にご注意ください。
IronOCRは、特定のフォントを使用して画像ファイルにテキストをオーバーレイします。したがって、場合によっては、選択したテキストサイズが実際のテキストサイズと同じではないことがあります。

TIFFファイル

バイトおよびストリームとしての検索可能なPDF

検索可能なPDFファイルのバイトおよびストリーム情報は、それぞれ SaveAsSearchablePdfBytes および SaveAsSearchablePdfStream メソッドを使用して出力することもできます。 以下のコード例は、これらのメソッドを使用する方法を示しています。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
VB   C#

チャクニット・ビン

ソフトウェアエンジニア

チャクニットは開発者のシャーロック・ホームズです。彼がソフトウェアエンジニアリングの将来性に気付いたのは、楽しみでコーディングチャレンジをしていたときでした。彼のフォーカスはIronXLとIronBarcodeにありますが、すべての製品でお客様を助けることに誇りを持っています。チャクニットは顧客と直接話すことで得た知識を活用して、製品自体のさらなる改善に貢献しています。彼の逸話的なフィードバックは、単なるJiraチケットを超えて、製品開発、ドキュメントおよびマーケティングをサポートし、顧客の全体的な体験を向上させます。オフィスにいないときは、機械学習やコーディングについて学んだり、ハイキングを楽しんだりしています。