Cómo guardar los resultados en formato PDF
Un PDF con capacidad de búsqueda, a menudo referido como un PDF OCR (Reconocimiento Óptico de Caracteres), es un tipo de documento PDF que contiene tanto imágenes escaneadas como texto legible por máquina. Estos PDF se crean realizando un OCR en documentos o imágenes en papel escaneados, que reconoce el texto de las imágenes y lo convierte en texto que se puede seleccionar y buscar.
IronOCR ofrece una solución para realizar el reconocimiento óptico de caracteres en documentos y exportar los resultados como archivos PDF en los que se pueden realizar búsquedas. Admite la exportación de archivos PDF con capacidad de búsqueda como archivos, bytes y secuencias.
Comience con IronOCR
Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.
Cómo guardar los resultados en formato PDF
- Descargar una biblioteca de C# para guardar resultados como PDF con capacidad de búsqueda
- Preparar la imagen y el documento PDF para el OCR
- Establezca la propiedad RenderSearchablePdf en true
- Utilice el método
SaveAsSearchablePdf
para generar un archivo PDF con capacidad de búsqueda - Exportar el PDF buscable como byte y cadena
Exportar como PDF con opción de búsqueda Ejemplo
Para exportar el resultado como un PDF con capacidad de búsqueda, el usuario debe primero establecer la propiedad Configuration.RenderSearchablePdf en true. Después de obtener el objeto de resultado de OCR del método Read
, utiliza el método SaveAsSearchablePdf
especificando la ruta del archivo de salida. El código a continuación lo demuestra utilizando el siguiente archivo TIFF de muestra.
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
A continuación se muestra una captura de pantalla del TIFF de muestra y un PDF de búsqueda incrustado. Puede intentar seleccionar el PDF de búsqueda para comprobar que el texto se puede seleccionar. El texto seleccionable también permite la capacidad de búsqueda en el software de visualización de PDF.
Atención

archivo TIFF
PDF buscable
PDF buscable como byte y flujo
La información de bytes y flujo del archivo PDF buscable también se puede exportar utilizando los métodos SaveAsSearchablePdfBytes
y SaveAsSearchablePdfStream
, respectivamente. El siguiente ejemplo de código muestra cómo utilizar estos métodos.
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();
// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()
' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()