如何将结果保存为可搜索的 PDF 文件

This article was translated from English: Does it need improvement?
Translated
View the article in English

查克尼特·宾

可搜索 PDF,通常称为 OCR (光学字符识别) PDF 是一种包含扫描图像和机器可读文本的 PDF 文档。这些 PDF 是通过对扫描的纸质文件或图像执行 OCR 来创建的,它能识别图像中的文本并将其转换为可选择和可搜索的文本。

IronOCR 为在文档上执行光学字符识别并将结果导出为可搜索 PDF 提供了解决方案。它支持将可搜索的 PDF 导出为文件、字节和流。


适用于OCR的C# NuGet库

安装使用 NuGet

Install-Package IronOcr
Java PDF JAR

下载 DLL

下载DLL

手动安装到你的项目中

适用于OCR的C# NuGet库

安装使用 NuGet

Install-Package IronOcr
Java PDF JAR

下载 DLL

下载DLL

手动安装到你的项目中

开始在您的项目中使用IronPDF,并立即获取免费试用。

第一步:
green arrow pointer

查看 IronOCRNuget 用于快速安装和部署。它有超过800万次下载,正在使用C#改变OCR。

适用于OCR的C# NuGet库 nuget.org/packages/IronOcr/
Install-Package IronOcr

考虑安装 IronOCR DLL 直接。下载并手动安装到您的项目或GAC表单中: IronOcr.zip

手动安装到你的项目中

下载DLL

导出为可搜索 PDF 示例

要将结果导出为可搜索 PDF,用户必须首先将 Configuration.RenderSearchablePdf 属性设置为 true。从 "Read "方法获取 OCR 结果对象后,使用 "SaveAsSearchablePdf "方法指定输出文件路径。下面的代码演示了这一点 TIFF 样本 锉刀

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
VB   C#

下面是样本 TIFF 和嵌入式可搜索 PDF 的截图。您可以尝试选择可搜索 PDF,以验证文本是否可选择。可选择文本还能在 PDF 阅读器软件中进行搜索。

请注意
IronOCR 使用特定字体在图像文件上叠加文本。因此,在某些情况下,所选文本大小可能与文本大小不同。

TIFF 文件

以字节和数据流形式搜索 PDF

还可分别使用 SaveAsSearchablePdfBytesSaveAsSearchablePdfStream 方法输出可搜索 PDF 文件的字节和流信息。下面的代码示例展示了如何使用这些方法。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
VB   C#

查克尼特·宾

软件工程师

Chaknith 是开发者中的福尔摩斯。他第一次意识到自己可能在软件工程方面有前途,是在他出于乐趣做代码挑战的时候。他的重点是 IronXL 和 IronBarcode,但他为能帮助客户解决每一款产品的问题而感到自豪。Chaknith 利用他从直接与客户交谈中获得的知识,帮助进一步改进产品。他的轶事反馈不仅仅局限于 Jira 票据,还支持产品开发、文档编写和市场营销,从而提升客户的整体体验。当他不在办公室时,他可能会在学习机器学习、编程或徒步旅行。