C#で検索可能なPDFとして結果を保存する方法

IronOCR を使用して C# で検索可能な PDF を保存する

This article was translated from English: Does it need improvement?
Translated
View the article in English

検索可能な PDF は、OCR (光学式文字認識) PDF とも呼ばれ、スキャンされた画像と機械で読み取り可能なテキストの両方を含む PDF ドキュメントの一種です。 これらの PDF は、スキャンされた紙の文書または画像に対して OCR を実行し、画像内のテキストを認識して、選択および検索可能なテキストに変換することによって作成されます。

IronOCR は、ドキュメントに対して光学文字認識を実行し、その結果を検索可能な PDF としてエクスポートするためのソリューションを提供します。 検索可能な PDF をファイル、バイト、ストリームとしてエクスポートすることをサポートします。

クイックスタート: 検索可能なPDFを1行でエクスポート

RenderSearchablePdf = trueを設定し、入力に対してRead(...)を実行し、 SaveAsSearchablePdf(...)を呼び出すだけで、IronOCR を使用して完全に検索可能な PDF を生成できます。

Nuget Icon今すぐ NuGet で PDF を作成してみましょう:

  1. NuGet パッケージ マネージャーを使用して IronOCR をインストールします

    PM > Install-Package IronOcr

  2. このコード スニペットをコピーして実行します。

    new IronOcr.IronTesseract { Configuration = { RenderSearchablePdf = true } } .Read(new IronOcr.OcrImageInput("file.jpg")).SaveAsSearchablePdf("searchable.pdf");
  3. 実際の環境でテストするためにデプロイする

    今すぐ無料トライアルでプロジェクトに IronOCR を使い始めましょう
    arrow pointer


検索可能なPDFとしてエクスポートする例

IronOCR を使用して結果を検索可能な PDF としてエクスポートする方法は次のとおりです。 まず、 Configuration.RenderSearchablePdfプロパティをtrueに設定する必要があります。 Readメソッドから OCR 結果オブジェクトを取得した後、出力ファイル パスを指定してSaveAsSearchablePdfメソッドを使用します。 以下のコードは、サンプル TIFF ファイルの使用方法を示しています。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
$vbLabelText   $csharpLabel

以下は、サンプル TIFF と埋め込まれた検索可能な PDF のスクリーンショットです。 PDF 内のテキストを選択して、検索可能かどうかを確認します。 The ability to select also means the text can be searched in a PDF viewer.

ご注意IronOCR は特定のフォントを使用して画像ファイルにテキストをオーバーレイするため、テキスト サイズに多少の差異が生じる可能性があります。

TIFFファイル

フィルターを適用した検索可能なPDFとしてエクスポート

SaveAsSearchablePdfは、検索可能な PDF にフィルターを適用するかどうかを指定できるブール フラグを 2 番目のパラメーターとして受け入れるため、開発者は柔軟に選択できます。

以下は、グレースケールを適用し、 SaveAsSearchablePdfの 2 番目のパラメータにtrueを設定してフィルター付き PDF を保存する例です。

:path=/static-assets/ocr/content-code-examples/how-to/image-quality-correction-searchable-pdf.cs
using IronOcr;

var ocr = new IronTesseract();
var ocrInput = new OcrInput();

// Load a PDF file
ocrInput.LoadPdf("invoice.pdf");

// Apply gray scale filter
ocrInput.ToGrayScale();
OcrResult result = ocr.Read(ocrInput);

// Save the result as a searchable PDF with filters applied
result.SaveAsSearchablePdf("outputGrayscale.pdf", true);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

バイトとストリームとして検索可能なPDF

検索可能な PDF の出力は、それぞれSaveAsSearchablePdfBytesSaveAsSearchablePdfStreamメソッドを使用して、バイトまたはストリームとして処理することもできます。 以下のコード例は、これらのメソッドを活用する方法を示しています。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
$vbLabelText   $csharpLabel

よくある質問

検索可能なPDFとは何ですか?

検索可能なPDFとは、スキャンされた画像と機械可読テキストを組み合わせたドキュメントで、スキャンされたドキュメントや画像にOCRを実行することで作成され、ユーザーがドキュメント内でテキストを選択して検索できるようにします。

スキャンされたドキュメントをC#で検索可能なPDFに変換する方法は?

スキャンした文書をC#で検索可能なPDFに変換するには、IronOCRを使用してConfiguration.RenderSearchablePdfプロパティをtrueに設定し、ReadメソッドでOCRを実行し、最後にSaveAsSearchablePdfを使用して出力を保存します。

検索可能なPDFをバイトやストリームとしてエクスポートできますか?

はい、IronOCRはSaveAsSearchablePdfBytesを使用してバイトとして、SaveAsSearchablePdfStreamを使用してストリームとして検索可能なPDFをエクスポートできます。

さまざまなファイル形式のOCR処理をどのように対応しますか?

IronOCRはTIFFなどのさまざまなファイル形式をサポートしており、これらの形式から検索可能なPDFを作成できます。

OCR技術を使用して作成された検索可能なPDFでテキストを選択および検索することは可能ですか?

はい、IronOCR技術を使用して作成された検索可能なPDFでは、PDFビューア内でテキストの選択と検索が可能です。

OCRを使用して検索可能なPDFを作成する際の手順は何ですか?

手順には、IronOCR C#ライブラリをダウンロードし、文書をOCR用に準備し、RenderSearchablePdfプロパティをtrueに設定し、SaveAsSearchablePdfメソッドを使用してファイルを保存することが含まれます。

PDF内のテキストが検索可能であることをどのように保証できますか?

テキストが検索可能であることを確認するには、IronOCRを使用して画像に対してOCRを実行し、文書を保存する前にRenderSearchablePdfプロパティをtrueに設定してください。

IronOCRは、検索可能なPDFのオーバーレイテキストに特定のフォントを使用しますか?

はい、IronOCRは画像ファイル上のオーバーレイテキストに特定のフォントを使用し、これによりテキストサイズにいくつかの差異が生じる可能性があります。

Chaknith Bin
ソフトウェアエンジニア
ChaknithはIronXLとIronBarcodeに取り組んでいます。彼はC#と.NETの深い専門知識を持ち、ソフトウェアの改善や顧客サポートに貢献しています。ユーザーとの対話から得られる洞察が、より良い製品、ドキュメント、および全体的な経験に寄与しています。
レビュー済み
Jeff Fritz
Jeffrey T. Fritz
プリンシパルプログラムマネージャー - .NETコミュニティチーム
Jeffはまた、.NETとVisual Studioチームのプリンシパルプログラムマネージャーです。彼は.NET Conf仮想会議シリーズのエグゼクティブプロデューサーであり、週に二回放送される開発者向けライブストリーム『Fritz and Friends』のホストを務め、テクノロジーについて話すことや視聴者と一緒にコードを書くことをしています。Jeffはワークショップ、プレゼンテーション、およびMicrosoft Build、Microsoft Ignite、.NET Conf、Microsoft MVPサミットを含む最大のMicrosoft開発者イベントのコンテンツを企画しています。
準備はできましたか?
Nuget ダウンロード 5,167,857 | Version: 2025.11 リリース