Cómo guardar los resultados en formato PDF

Chaknith related to Cómo guardar los resultados en formato PDF
Chaknith Bin
22 de octubre, 2023
Actualizado 10 de diciembre, 2024
Compartir:
This article was translated from English: Does it need improvement?
Translated
View the article in English

Un PDF con capacidad de búsqueda, a menudo referido como un PDF OCR (Reconocimiento Óptico de Caracteres), es un tipo de documento PDF que contiene tanto imágenes escaneadas como texto legible por máquina. Estos PDF se crean realizando un OCR en documentos o imágenes en papel escaneados, que reconoce el texto de las imágenes y lo convierte en texto que se puede seleccionar y buscar.

IronOCR ofrece una solución para realizar el reconocimiento óptico de caracteres en documentos y exportar los resultados como archivos PDF en los que se pueden realizar búsquedas. Admite la exportación de archivos PDF con capacidad de búsqueda como archivos, bytes y secuencias.

Comience con IronOCR

Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.

Primer Paso:
green arrow pointer



Exportar como PDF con opción de búsqueda Ejemplo

Para exportar el resultado como un PDF con capacidad de búsqueda, el usuario debe primero establecer la propiedad Configuration.RenderSearchablePdf en true. Después de obtener el objeto de resultado de OCR del método Read, utiliza el método SaveAsSearchablePdf especificando la ruta del archivo de salida. El código a continuación lo demuestra utilizando el siguiente archivo TIFF de muestra.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
$vbLabelText   $csharpLabel

A continuación se muestra una captura de pantalla del TIFF de muestra y un PDF de búsqueda incrustado. Puede intentar seleccionar el PDF de búsqueda para comprobar que el texto se puede seleccionar. El texto seleccionable también permite la capacidad de búsqueda en el software de visualización de PDF.

Atención
IronOCR utiliza un tipo de letra determinado para superponer el texto sobre el archivo de imagen. Por lo tanto, en algunos casos, el tamaño del texto seleccionado puede no coincidir con el tamaño del texto.

Archivo TIFF

PDF buscable como byte y flujo

La información de bytes y flujo del archivo PDF buscable también se puede exportar utilizando los métodos SaveAsSearchablePdfBytes y SaveAsSearchablePdfStream, respectivamente. El siguiente ejemplo de código muestra cómo utilizar estos métodos.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
$vbLabelText   $csharpLabel
Chaknith related to PDF buscable como byte y flujo
Ingeniero de software
Chaknith es el Sherlock Holmes de los desarrolladores. La primera vez que se le ocurrió que podría tener futuro en la ingeniería de software fue cuando hacía retos de código por diversión. Su trabajo se centra en IronXL e IronBarcode, pero se enorgullece de ayudar a los clientes con todos los productos. Chaknith aprovecha sus conocimientos, adquiridos hablando directamente con los clientes, para ayudar a mejorar los propios productos. Sus comentarios anecdóticos van más allá de los tickets de Jira y apoyan el desarrollo de productos, la documentación y el marketing, para mejorar la experiencia general del cliente.Cuando no está en la oficina, se le puede encontrar aprendiendo sobre aprendizaje automático, codificación y senderismo.