Cómo guardar resultados como un PDF buscable en C#

Guarde archivos PDF con capacidad de búsqueda en C# con IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

Un PDF con capacidad de búsqueda, a menudo referido como un PDF con OCR (Reconocimiento Óptico de Caracteres), es un tipo de documento PDF que contiene tanto imágenes escaneadas como texto legible por máquina. Estos PDFs se crean al realizar OCR en documentos de papel escaneados o imágenes, reconociendo el texto en las imágenes y convirtiéndolo en texto seleccionable y con capacidad de búsqueda.

IronOCR proporciona una solución para realizar reconocimiento óptico de caracteres en documentos y exportar los resultados como PDFs con capacidad de búsqueda. Soporta la exportación de PDFs con capacidad de búsqueda como archivos, bytes y flujos.

Inicio rápido: Exportar PDF con capacidad de búsqueda en una línea

Establece RenderSearchablePdf = true, ejecuta Read(...) en tu entrada, e invoca SaveAsSearchablePdf(...) — eso es todo lo que se necesita para generar un PDF completamente con capacidad de búsqueda con IronOCR.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronOCR con el gestor de paquetes NuGet

    PM > Install-Package IronOcr

  2. Copie y ejecute este fragmento de código.

    new IronOcr.IronTesseract { Configuration = { RenderSearchablePdf = true } } .Read(new IronOcr.OcrImageInput("file.jpg")).SaveAsSearchablePdf("searchable.pdf");
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronOCR en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer


Ejemplo de exportación como PDF con capacidad de búsqueda

Así exportas el resultado como PDF buscable con IronOCR. Primero debes establecer la propiedad Configuration.RenderSearchablePdf en true. Después de obtener el objeto de resultado de OCR del método Read, utiliza el método SaveAsSearchablePdf especificando la ruta del archivo de salida. El código a continuación demuestra el uso de un archivo TIFF de muestra.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = true;

// Add image
using var imageInput = new OcrImageInput("Potter.tiff");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf");
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Enable render as searchable PDF
ocrTesseract.Configuration.RenderSearchablePdf = True

' Add image
Dim imageInput = New OcrImageInput("Potter.tiff")
' Perform OCR
Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Export as searchable PDF
ocrResult.SaveAsSearchablePdf("searchablePdf.pdf")
$vbLabelText   $csharpLabel

A continuación, una captura del TIFF de muestra y un PDF embebido buscable. Intenta seleccionar el texto en el PDF para confirmar su capacidad de búsqueda. La capacidad de selección también significa que el texto puede ser buscado en un visor de PDF.

Por favor notaIronOCR utiliza una fuente particular para superponer texto en el archivo de imagen, lo que puede generar algunas discrepancias en el tamaño del texto.

Archivo TIFF

Exportar como PDF con capacidad de búsqueda y filtros aplicados

El SaveAsSearchablePdf también acepta un indicador booleano como segundo parámetro que permite aplicar filtros a un PDF con capacidad de búsqueda o no, dando a los desarrolladores la flexibilidad de elegir.

A continuación se muestra un ejemplo de aplicación del filtro de escala de grises y luego guardar el PDF con un filtro poniendo true en el segundo parámetro de SaveAsSearchablePdf.

:path=/static-assets/ocr/content-code-examples/how-to/image-quality-correction-searchable-pdf.cs
using IronOcr;

var ocr = new IronTesseract();
var ocrInput = new OcrInput();

// Load a PDF file
ocrInput.LoadPdf("invoice.pdf");

// Apply gray scale filter
ocrInput.ToGrayScale();
OcrResult result = ocr.Read(ocrInput);

// Save the result as a searchable PDF with filters applied
result.SaveAsSearchablePdf("outputGrayscale.pdf", true);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

PDF con capacidad de búsqueda como byte y flujo

La salida del PDF con capacidad de búsqueda también se puede manejar como bytes o flujos utilizando los métodos SaveAsSearchablePdfBytes y SaveAsSearchablePdfStream, respectivamente. El ejemplo de código a continuación muestra cómo utilizar estos métodos.

:path=/static-assets/ocr/content-code-examples/how-to/searchable-pdf-searchable-pdf-byte-stream.cs
// Export searchable PDF byte
byte[] pdfByte = ocrResult.SaveAsSearchablePdfBytes();

// Export searchable PDF stream
Stream pdfStream = ocrResult.SaveAsSearchablePdfStream();
' Export searchable PDF byte
Dim pdfByte() As Byte = ocrResult.SaveAsSearchablePdfBytes()

' Export searchable PDF stream
Dim pdfStream As Stream = ocrResult.SaveAsSearchablePdfStream()
$vbLabelText   $csharpLabel

Preguntas Frecuentes

¿Qué es un PDF buscable?

Un PDF buscable es un documento que combina imágenes escaneadas con texto legible por máquina, creado al realizar OCR en documentos o imágenes escaneadas, permitiendo a los usuarios seleccionar y buscar texto dentro del documento.

¿Cómo puedo convertir documentos escaneados en PDFs buscables en C#?

Para convertir documentos escaneados en PDFs buscables en C#, use IronOCR configurando la propiedad Configuration.RenderSearchablePdf en verdadero, ejecutando OCR con el método Read y luego guardando el resultado usando SaveAsSearchablePdf.

¿Puedo exportar PDFs buscables como bytes o flujos?

Sí, IronOCR permite exportar PDFs buscables como bytes usando SaveAsSearchablePdfBytes y como flujos usando SaveAsSearchablePdfStream.

¿Cómo manejo diferentes formatos de archivo para el procesamiento OCR?

IronOCR admite varios formatos de archivo como TIFF para el procesamiento OCR, lo que permite la creación de PDFs buscables a partir de estos formatos.

¿Es posible seleccionar y buscar texto en un PDF buscable creado con tecnología OCR?

Sí, los PDFs buscables creados con la tecnología IronOCR permiten la selección de texto y la capacidad de búsqueda dentro de un visor de PDF.

¿Qué pasos están involucrados en la creación de un PDF buscable usando OCR?

Los pasos incluyen descargar la biblioteca IronOCR C#, preparar documentos para OCR, establecer la propiedad RenderSearchablePdf en verdadero y usar el método SaveAsSearchablePdf para guardar el archivo.

¿Cómo puedo asegurarme de que el texto en mi PDF sea buscable?

Asegure que el texto sea buscable usando IronOCR para realizar OCR en sus imágenes y configure la propiedad RenderSearchablePdf en verdadero antes de guardar el documento.

¿IronOCR utiliza una fuente específica para el texto superpuesto en los PDFs buscables?

Sí, IronOCR utiliza una fuente específica para el texto superpuesto en los archivos de imagen, lo que puede resultar en algunas discrepancias en el tamaño del texto.

Chaknith Bin
Ingeniero de Software
Chaknith trabaja en IronXL e IronBarcode. Tiene un profundo conocimiento en C# y .NET, ayudando a mejorar el software y apoyar a los clientes. Sus conocimientos derivados de las interacciones con los usuarios contribuyen a mejores productos, documentación y experiencia en general.
Revisado por
Jeff Fritz
Jeffrey T. Fritz
Gerente Principal de Programas - Equipo de la Comunidad .NET
Jeff también es Gerente Principal de Programas para los equipos de .NET y Visual Studio. Es el productor ejecutivo de la serie de conferencias virtuales .NET Conf y anfitrión de 'Fritz and Friends', una transmisión en vivo para desarrolladores que se emite dos veces a la semana donde habla sobre tecnología y escribe código junto con la audiencia. Jeff escribe talleres, presentaciones, y planifica contenido para los eventos de desarrolladores más importantes de Microsoft, incluyendo Microsoft Build, Microsoft Ignite, .NET Conf y la Cumbre de Microsoft MVP.
¿Listo para empezar?
Nuget Descargas 5,167,857 | Version: 2025.11 recién lanzado