如何将结果保存为可搜索的 PDF 文件
可搜索 PDF,通常称为 OCR(光学字符识别)PDF 是一种包含扫描图像和机器可读文本的 PDF 文档类型。 这些PDF是通过对扫描的纸质文件或图像执行OCR来创建的,该技术识别图像中的文本,并将其转换为可选择和可搜索的文本。
IronOCR 提供了一种解决方案,用于对文档执行光学字符识别,并将结果导出为可搜索的 PDF。 它支持将可搜索的PDF导出为文件、字节和流。
开始使用IronOCR
立即在您的项目中开始使用IronOCR,并享受免费试用。
如何将结果保存为可搜索的 PDF 文件
导出为可搜索的PDF示例
要将结果导出为可搜索的 PDF,用户必须首先将 Configuration.RenderSearchablePdf 属性设置为 true。 在从 Read
方法获取 OCR 结果对象后,使用 SaveAsSearchablePdf
方法并指定输出文件路径。 下面的代码演示了如何使用以下内容TIFF 样本锉刀
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
以下是示例TIFF和嵌入式可搜索PDF的屏幕截图。 您可以尝试选择可搜索的PDF以验证文本是否可选择。 可选择的文本还能在PDF查看软件中启用搜索功能。
请注意
TIFF 文件
可搜索 PDF
可搜索的PDF字节和流
可搜索 PDF 文件的字节和流信息也可以分别使用 SaveAsSearchablePdfBytes
和 SaveAsSearchablePdfStream
方法输出。 以下代码示例展示了如何使用这些方法。
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();
// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()
' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()