Cómo guardar los resultados en formato PDF

por Chaknith Bin

Un PDF con capacidad de búsqueda, a menudo denominado OCR (Reconocimiento óptico de caracteres) PDF, es un tipo de documento PDF que contiene tanto imágenes escaneadas como texto legible por máquina. Estos PDF se crean realizando un OCR en documentos o imágenes en papel escaneados, que reconoce el texto de las imágenes y lo convierte en texto que se puede seleccionar y buscar.

IronOCR ofrece una solución para realizar el reconocimiento óptico de caracteres en documentos y exportar los resultados como archivos PDF en los que se pueden realizar búsquedas. Admite la exportación de archivos PDF con capacidad de búsqueda como archivos, bytes y secuencias.


Biblioteca NuGet C# para OCR

Instalar con NuGet

Install-Package IronOcr
o
Java PDF JAR

Descargar DLL

Descargar DLL

Instalar manualmente en su proyecto

Exportar como PDF con opción de búsqueda Ejemplo

Para exportar el resultado como un PDF en el que se puedan realizar búsquedas, el usuario debe establecer primero la propiedad Configuration.RenderSearchablePdf en true. Después de obtener el objeto de resultado OCR del método Read, utilice el método SaveAsSearchablePdf especificando la ruta del archivo de salida. El código siguiente lo demuestra utilizando lo siguiente muestra TIFF archivo.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

//  Instanciar IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

//  Habilitar la conversión a PDF con función de búsqueda
ocrTesseract.Configuration.RenderSearchablePdf = true;

//  Añadir imagen
using var imageInput = new OcrImageInput("Potter.tiff");
//  Realizar OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

//  Exportar como PDF con función de búsqueda
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

'  Instanciar IronTesseract
Private ocrTesseract As New IronTesseract()

'  Habilitar la conversión a PDF con función de búsqueda
ocrTesseract.Configuration.RenderSearchablePdf = True

'  Añadir imagen
Dim imageInput = New OcrImageInput("Potter.tiff")
'  Realizar OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

'  Exportar como PDF con función de búsqueda
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
VB   C#

A continuación se muestra una captura de pantalla del TIFF de muestra y un PDF de búsqueda incrustado. Puede intentar seleccionar el PDF de búsqueda para comprobar que el texto se puede seleccionar. El texto seleccionable también permite la capacidad de búsqueda en el software de visualización de PDF.

Tenga en cuenta
IronOCR utiliza un tipo de letra determinado para superponer el texto sobre el archivo de imagen. Por lo tanto, en algunos casos, el tamaño del texto seleccionado puede no coincidir con el tamaño del texto.

Archivo TIFF

PDF buscable como byte y flujo

Los métodos SaveAsSearchablePdfBytes y SaveAsSearchablePdfStream también permiten obtener información de bytes y flujos del archivo PDF en el que se pueden realizar búsquedas. El siguiente ejemplo de código muestra cómo utilizar estos métodos.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
//  Exportación de bytes PDF con función de búsqueda
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

//  Exportar flujo PDF con opción de búsqueda
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
'  Exportación de bytes PDF con función de búsqueda
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

'  Exportar flujo PDF con opción de búsqueda
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
VB   C#

Chaknith Bin

Ingeniero de software

Chaknith es el Sherlock Holmes de los desarrolladores. La primera vez que se le ocurrió que podría tener futuro en la ingeniería de software fue cuando hacía retos de código por diversión. Su trabajo se centra en IronXL e IronBarcode, pero se enorgullece de ayudar a los clientes con todos los productos. Chaknith aprovecha sus conocimientos, adquiridos hablando directamente con los clientes, para ayudar a mejorar los propios productos. Sus comentarios anecdóticos van más allá de los tickets de Jira y apoyan el desarrollo de productos, la documentación y el marketing, para mejorar la experiencia general del cliente.Cuando no está en la oficina, se le puede encontrar aprendiendo sobre aprendizaje automático, codificación y senderismo.