如何将结果保存为可搜索的 PDF 文件

Chaknith related to 如何将结果保存为可搜索的 PDF 文件
查克尼特·宾
2023年十月22日
更新 2024年十二月10日
分享:
This article was translated from English: Does it need improvement?
Translated
View the article in English

可搜索的PDF,通常称为OCR(光学字符识别)PDF,是一种包含扫描图像和机器可读文本的PDF文档。 这些PDF是通过对扫描的纸质文件或图像执行OCR来创建的,该技术识别图像中的文本,并将其转换为可选择和可搜索的文本。

IronOCR 提供了一种解决方案,用于对文档执行光学字符识别,并将结果导出为可搜索的 PDF。 它支持将可搜索的PDF导出为文件、字节和流。

开始使用IronOCR

立即在您的项目中开始使用IronOCR,并享受免费试用。

第一步:
green arrow pointer



导出为可搜索的PDF示例

要将结果导出为可搜索的PDF,用户必须首先将Configuration.RenderSearchablePdf属性设置为true。 从Read方法获取OCR结果对象后,通过指定输出文件路径,使用SaveAsSearchablePdf方法。 以下代码演示了这一点,使用了以下示例TIFF文件。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");

以下是示例TIFF和嵌入式可搜索PDF的屏幕截图。 您可以尝试选择可搜索的PDF以验证文本是否可选择。 可选择的文本还能在PDF查看软件中启用搜索功能。

请注意
IronOCR 使用特定字体在图像文件上叠加文本。因此,在某些情况下,所选文本大小可能与文本大小不同。

TIFF 文件

可搜索的PDF字节和流

可搜索PDF文件的字节和流信息也可以分别使用SaveAsSearchablePdfBytesSaveAsSearchablePdfStream方法输出。 以下代码示例展示了如何使用这些方法。

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
Chaknith related to 可搜索的PDF字节和流
软件工程师
Chaknith 是开发者中的福尔摩斯。他第一次意识到自己可能在软件工程方面有前途,是在他出于乐趣做代码挑战的时候。他的重点是 IronXL 和 IronBarcode,但他为能帮助客户解决每一款产品的问题而感到自豪。Chaknith 利用他从直接与客户交谈中获得的知识,帮助进一步改进产品。他的轶事反馈不仅仅局限于 Jira 票据,还支持产品开发、文档编写和市场营销,从而提升客户的整体体验。当他不在办公室时,他可能会在学习机器学习、编程或徒步旅行。