如何將結果保存為可搜尋的 PDF
可搜索的 PDF,通常被稱為 OCR(光學字符識別)PDF 是一種包含掃描圖像和機器可讀文本的 PDF 文件。 這些PDF是通過對掃描的紙質文件或圖像執行OCR來創建的,該過程識別圖像中的文字並將其轉換為可選擇和可搜索的文字。
IronOCR 提供了一個解決方案,用於對文件進行光學字符識別並將結果導出為可搜索的 PDF。 它支持將可搜索的PDF導出為文件、字節和流。
開始使用IronOCR
立即在您的專案中使用IronOCR,並享受免費試用。
如何將結果保存為可搜尋的 PDF
導出為可搜尋PDF示例
要將結果導出為可搜尋的PDF,用戶必須首先將 Configuration.RenderSearchablePdf 屬性設置為 true。 在從 Read
方法獲得 OCR 結果對象後,使用 SaveAsSearchablePdf
方法並指定輸出文件路徑。 以下代碼使用以下元素進行演示範例 TIFF文件。
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
以下是示例 TIFF 和嵌入式可搜索 PDF 的截圖。 您可以嘗試選擇可搜索的PDF以確認文本是可選擇的。 可選擇的文字也使得PDF查看軟體具有搜尋功能。
請注意
TIFF 文件
可搜索的 PDF
可搜尋的PDF作為位元組和流
可使用 SaveAsSearchablePdfBytes
和 SaveAsSearchablePdfStream
方法分別輸出可搜尋 PDF 檔案的位元組和流資訊。 以下的程式碼範例展示了如何使用這些方法。
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();
// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()
' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()