如何將結果保存為可搜尋的 PDF

This article was translated from English: Does it need improvement?
Translated
View the article in English

查克尼思·賓

可搜索的 PDF,通常被稱為 OCR (光學字符識別) PDF 是一種包含掃描圖像和機器可讀文本的 PDF 文檔。這些 PDF 通過對掃描的紙質文檔或圖像進行光學字符識別(OCR)創建,識別圖像中的文本並將其轉換為可選擇和可搜索的文本。

IronOCR 提供了一種對文檔進行光學字符識別並將結果導出為可搜索的 PDF 的解決方案。它支持將可搜索的 PDF 導出為文件、字節和流。


C# NuGet 程式庫用于 OCR

安裝與 NuGet

Install-Package IronOcr
Java PDF JAR

下載 DLL

下載DLL

手動安裝到您的項目中

C# NuGet 程式庫用于 OCR

安裝與 NuGet

Install-Package IronOcr
Java PDF JAR

下載 DLL

下載DLL

手動安裝到您的項目中

立即開始在您的專案中使用IronPDF,並享受免費試用。

第一步:
green arrow pointer

查看 IronOCRNuget 快速安裝和部署。已被下載超過800萬次,它正用C#改變OCR。

C# NuGet 程式庫用于 OCR nuget.org/packages/IronOcr/
Install-Package IronOcr

請考慮安裝 IronOCR DLL 直接下載並手動安裝到您的專案或GAC表單: IronOcr.zip

手動安裝到您的項目中

下載DLL

將結果匯出為可搜尋的 PDF 示例

若要將結果匯出為可搜尋的 PDF,使用者必須先將 Configuration.RenderSearchablePdf 屬性設為 true。從 Read 方法獲得 OCR 結果對象後,使用 SaveAsSearchablePdf 方法並指定輸出文件路徑。下面的代碼示例演示了如何使用以下方法。 範例 TIFF 文件。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
VB   C#

下面是範例TIFF的螢幕截圖以及嵌入的可搜尋PDF。您可以嘗試選擇可搜尋的PDF來驗證文本是否可選。可選文本還使PDF檢視器軟體具備搜尋功能。

請注意
IronOCR 使用特定字體在圖像文件上疊加文字。因此,在某些情況下,所選文字大小可能與文字大小不相同。

TIFF 文件

可搜尋 PDF 之位元組與串流

可輸出的可搜尋 PDF 文件之位元組與串流資訊可分別使用 SaveAsSearchablePdfBytesSaveAsSearchablePdfStream 方法。以下的代碼範例顯示如何使用這些方法。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
VB   C#

查克尼思·賓

軟體工程師

Chaknith 是開發者界的夏洛克福爾摩斯。他第一次意識到自己可能有個軟體工程的未來,是在他為了娛樂而參加程式挑戰的時候。他的重點是 IronXL 和 IronBarcode,但他也引以為豪的是,他幫助客戶解決所有產品的問題。Chaknith 利用他與客戶直接對話中獲得的知識,以進一步改進產品。他的實際反饋超越了 Jira 工單,並支持產品開發、文件撰寫和行銷,以提升客戶的整體體驗。不在公司時,他通常在學習機器學習、寫程式和徒步旅行。