Cómo guardar los resultados en formato PDF
Un PDF con capacidad de búsqueda, a menudo denominado OCR (Reconocimiento óptico de caracteres) PDF, es un tipo de documento PDF que contiene tanto imágenes escaneadas como texto legible por máquina. Estos PDF se crean realizando un OCR en documentos o imágenes en papel escaneados, que reconoce el texto de las imágenes y lo convierte en texto que se puede seleccionar y buscar.
IronOCR ofrece una solución para realizar el reconocimiento óptico de caracteres en documentos y exportar los resultados como archivos PDF en los que se pueden realizar búsquedas. Admite la exportación de archivos PDF con capacidad de búsqueda como archivos, bytes y secuencias.
Cómo guardar los resultados en formato PDF
- Descargar una biblioteca de C# para guardar los resultados como PDF con capacidad de búsqueda
- Preparar la imagen y el documento PDF para el OCR
- Fije el RenderSearchablePdf a verdadero
- Utilice el
SaveAsSearchablePdf
método para generar un archivo PDF con función de búsqueda - Exportar el PDF de búsqueda como byte y cadena
Instalar con NuGet
Install-Package IronOcr
Descargar DLL
Instalar manualmente en su proyecto
Exportar como PDF con opción de búsqueda Ejemplo
Para exportar el resultado como un PDF en el que se puedan realizar búsquedas, el usuario debe establecer primero la propiedad Configuration.RenderSearchablePdf en true. Después de obtener el objeto de resultado OCR del método Read
, utilice el método SaveAsSearchablePdf
especificando la ruta del archivo de salida. El código siguiente lo demuestra utilizando lo siguiente muestra TIFF archivo.
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;
// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True
' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
A continuación se muestra una captura de pantalla del TIFF de muestra y un PDF de búsqueda incrustado. Puede intentar seleccionar el PDF de búsqueda para comprobar que el texto se puede seleccionar. El texto seleccionable también permite la capacidad de búsqueda en el software de visualización de PDF.
Atención
Archivo TIFF
PDF con opción de búsqueda
PDF buscable como byte y flujo
Los métodos SaveAsSearchablePdfBytes
y SaveAsSearchablePdfStream
también permiten obtener información de bytes y flujos del archivo PDF en el que se pueden realizar búsquedas. El siguiente ejemplo de código muestra cómo utilizar estos métodos.
:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();
// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()
' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()