Cómo guardar los resultados en formato PDF

This article was translated from English: Does it need improvement?
Translated
View the article in English

por Chaknith Bin

Un PDF con capacidad de búsqueda, a menudo denominado OCR (Reconocimiento óptico de caracteres) PDF, es un tipo de documento PDF que contiene tanto imágenes escaneadas como texto legible por máquina. Estos PDF se crean realizando un OCR en documentos o imágenes en papel escaneados, que reconoce el texto de las imágenes y lo convierte en texto que se puede seleccionar y buscar.

IronOCR ofrece una solución para realizar el reconocimiento óptico de caracteres en documentos y exportar los resultados como archivos PDF en los que se pueden realizar búsquedas. Admite la exportación de archivos PDF con capacidad de búsqueda como archivos, bytes y secuencias.


Biblioteca NuGet C# para OCR

Instalar con NuGet

Install-Package IronOcr
o
Java PDF JAR

Descargar DLL

Descargar DLL

Instalar manualmente en su proyecto

Exportar como PDF con opción de búsqueda Ejemplo

Para exportar el resultado como un PDF en el que se puedan realizar búsquedas, el usuario debe establecer primero la propiedad Configuration.RenderSearchablePdf en true. Después de obtener el objeto de resultado OCR del método Read, utilice el método SaveAsSearchablePdf especificando la ruta del archivo de salida. El código siguiente lo demuestra utilizando lo siguiente muestra TIFF archivo.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
VB   C#

A continuación se muestra una captura de pantalla del TIFF de muestra y un PDF de búsqueda incrustado. Puede intentar seleccionar el PDF de búsqueda para comprobar que el texto se puede seleccionar. El texto seleccionable también permite la capacidad de búsqueda en el software de visualización de PDF.

Atención
IronOCR utiliza un tipo de letra determinado para superponer el texto sobre el archivo de imagen. Por lo tanto, en algunos casos, el tamaño del texto seleccionado puede no coincidir con el tamaño del texto.

Archivo TIFF

PDF buscable como byte y flujo

Los métodos SaveAsSearchablePdfBytes y SaveAsSearchablePdfStream también permiten obtener información de bytes y flujos del archivo PDF en el que se pueden realizar búsquedas. El siguiente ejemplo de código muestra cómo utilizar estos métodos.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
VB   C#

Chaknith Bin

Ingeniero de software

Chaknith es el Sherlock Holmes de los desarrolladores. La primera vez que se le ocurrió que podría tener futuro en la ingeniería de software fue cuando hacía retos de código por diversión. Su trabajo se centra en IronXL e IronBarcode, pero se enorgullece de ayudar a los clientes con todos los productos. Chaknith aprovecha sus conocimientos, adquiridos hablando directamente con los clientes, para ayudar a mejorar los propios productos. Sus comentarios anecdóticos van más allá de los tickets de Jira y apoyan el desarrollo de productos, la documentación y el marketing, para mejorar la experiencia general del cliente.Cuando no está en la oficina, se le puede encontrar aprendiendo sobre aprendizaje automático, codificación y senderismo.