Lectura de documentos escaneados en C# con IronOCR

Actualizado:21 de abril de 2026

Translated

View the article in English

IronOCR permite a los desarrolladores de C# extraer texto de archivos PDF e imágenes escaneadas mediante tecnología OCR, convirtiendo documentos basados en imágenes en los que no se pueden realizar búsquedas en contenidos accesibles con sólo unas pocas líneas de código.

Muchos PDFs contienen texto basado en imágenes no buscable. IronOCR convierte todo esto en contenido que permite realizar búsquedas, lo que facilita la localización de información específica y mejora la accesibilidad de los documentos, especialmente para las personas con discapacidad visual.

En lugar de copiar o recrear manualmente texto e imágenes, la extracción automatizada garantiza precisión y eficiencia. Esto resulta especialmente útil para la investigación, los documentos jurídicos y la creación de contenidos en los que es habitual reutilizar partes específicas de PDF.

Las empresas pueden extraer datos críticos de PDFs para análisis o integración de sistemas, optimizando flujos de trabajo. Los diseñadores y mercadólogos también pueden extraer imágenes para mejorarlas y reutilizarlas en varios proyectos.

En este tutorial, exploraremos los métodos OcrPdfInput, cubriendo las opciones y parámetros disponibles para mostrar cómo IronOCR simplifica la extracción de texto e imágenes de PDF para varias aplicaciones.

Para utilizar esta función, también debe instalar el paquete IronOcr.Extensions.AdvancedScan.

Inicio rápido: Extraer texto de un PDF o imagen escaneada

Comience en segundos: con una línea de código, cargará su PDF o imagen escaneada utilizando OcrInput.LoadPdf o LoadImage de IronOCR y extraerá instantáneamente el texto a través de ReadDocument. Perfecto para desarrolladores que quieren tener OCR funcionando rápidamente.

Instala IronOCR con el Administrador de Paquetes NuGet
PM > Install-Package IronOcr

Copie y ejecute este fragmento de código.

var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;

Despliegue para probar en su entorno real

Comienza a usar IronOCR en tu proyecto hoy mismo con una prueba gratuita

Flujo de trabajo mínimo (5 pasos)

Descargue la biblioteca C# para leer documentos escaneados
Importa el documento escaneado para su procesamiento
Utilice el método LoadImage para imágenes o LoadPdf para archivos PDF escaneados
Extraer texto usando el método ReadDocument
Guarda o exporta el texto extraído según sea necesario para su uso posterior

¿Cómo extraer texto de documentos escaneados?

Para extraer texto de todas las imágenes dentro de un documento, utilice el método ReadDocument. Este método procesa el documento y devuelve un objeto que contiene el texto extraído, al cual se puede acceder a través de la propiedad Text. El ejemplo a continuación muestra cómo usar este método con un archivo TIFF de ejemplo .

IronOCR es compatible con una amplia variedad de formatos de documentos para escanear. En cuanto a las imágenes, se puede trabajar con los formatos JPG, PNG, GIF, TIFF y BMP, mientras que la compatibilidad con PDF incluye tanto documentos de una sola página como de varias. La biblioteca utiliza la avanzada tecnología Tesseract 5 para garantizar una gran precisión en todos los formatos compatibles.

Por favor nota

El método actualmente solo funciona para inglés, chino, japonés, coreano y alfabeto latino.
Usar escaneo avanzado en .NET Framework requiere que el proyecto se ejecute en arquitectura x64. )}]

¿Cómo es el documento de entrada?

Página del libro de Harry Potter que muestra el Capítulo Ocho 'La Fiesta de los Muertos' con un texto narrativo sobre Hogwarts en octubre

¿Qué implemento en el código OCR?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs

using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

¿Qué resultados puedo esperar del procesamiento OCR?

Ventana de depuración de Visual Studio mostrando el resultado OCR procesado del texto de Harry Potter desde el ejemplo de documento escaneado

Si necesita realizar OCR en un archivo PDF, simplemente reemplace el método LoadImage por LoadPdf. Esto permite que IronOCR procese y extraiga texto de PDFs escaneados de la misma manera.

Opciones avanzadas de procesamiento de documentos

Cuando se trabaja con documentos escaneados, a menudo se necesita un mayor control sobre el proceso de OCR. IronOCR ofrece varias funciones avanzadas para mejorar los resultados de extracción de texto.

Procesamiento de documentos de varias páginas

Para documentos con varias páginas, IronOCR gestiona eficazmente el procesamiento por lotes:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()

    ' Load a multi-page PDF
    input.LoadPdf("multi-page-document.pdf")

    ' Process all pages
    Dim result As OcrResult = ocr.ReadDocument(input)

    ' Access individual page results
    For Each page In result.Pages
        Console.WriteLine($"Page {page.PageNumber}: {page.Text}")
    Next

End Using

$vbLabelText $csharpLabel

Optimización del rendimiento del OCR

La calidad de los documentos escaneados influye directamente en la precisión del OCR. IronOCR incluye filtros de optimización de imágenes integrados para mejorar el reconocimiento de texto:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    ' Load and enhance image quality
    input.LoadImage("low-quality-scan.jpg")
    input.Deskew()  ' Correct image skew
    input.DeNoise() ' Remove background noise
    input.Binarize() ' Convert to black and white

    Dim result As OcrResult = ocr.ReadDocument(input)
End Using

$vbLabelText $csharpLabel

Creación de archivos PDF con función de búsqueda

Una de las funciones más valiosas a la hora de procesar documentos escaneados es la posibilidad de crear archivos PDF con función de búsqueda. Se mantiene el aspecto del documento original al tiempo que se añade una capa de texto:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");

Imports IronOcr

Dim ocr As New IronTesseract()
Using input As New OcrInput()
    input.LoadPdf("scanned-document.pdf")

    ' Process and save as searchable PDF
    Dim result As OcrResult = ocr.ReadDocument(input)
    result.SaveAsSearchablePdf("searchable-output.pdf")
End Using

$vbLabelText $csharpLabel

Trabajar con diferentes tipos de documentos

IronOCR destaca en el procesamiento de varios tipos de documentos que se encuentran habitualmente en entornos empresariales. Ya se trate de facturas, contratos o documentos históricos, la biblioteca ofrece funciones especializadas para extraer datos de distintas fuentes.

Procesamiento de documentos heredados

Muchas organizaciones tienen archivos de documentos escaneados en formatos antiguos. IronOCR se encarga de ello con eficacia, incluida la compatibilidad con archivos TIFF multipágina utilizados habitualmente en los sistemas de gestión de documentos.

Soporte de idiomas

Aunque este ejemplo se centra en el texto en inglés, IronOCR es compatible con más de 125 idiomas internacionales. Esto lo hace ideal para procesar documentos multilingües o en idiomas distintos del inglés.

Prácticas recomendadas para la digitalización de documentos

Lograr resultados óptimos al procesar documentos escaneados:

Calidad de escaneo: Use una resolución mínima de 300 DPI para obtener los mejores resultados
Formato de archivo: Los formatos TIFF y PNG preservan la calidad mejor que JPEG para documentos de texto
Pre-procesamiento: Aplique filtros apropiados según la condición de su documento
Rendimiento: Para grandes lotes, considere el uso de capacidades multihilo

Solución de problemas comunes

Cuando se trabaja con documentos escaneados, pueden surgir varios problemas. A continuación se ofrecen soluciones a problemas comunes:

Escaneos de baja calidad: Aplique filtros de mejora antes del procesamiento OCR
Documentos sesgados: Utilice el método Deskew() para corregir la orientación
Contenido mixto: Procese regiones específicas si los documentos contienen elementos de texto y no texto

Para obtener una guía más detallada, explore nuestro tutorial completo de OCR en C# o consulte ejemplos sencillos de OCR para empezar rápidamente.

Próximos pasos

Ahora que ya sabes cómo extraer texto de documentos escaneados, puedes explorar funciones más avanzadas como hacer que cualquier PDF sea consultable o procesar corrientes PDF para aplicaciones web. La flexibilidad de IronOCR lo hace adecuado para todo, desde la simple digitalización de documentos hasta complejos flujos de trabajo de procesamiento de documentos empresariales.

Preguntas Frecuentes

¿Cómo puedo extraer texto de un PDF escaneado en C#?

IronOCR simplifica la extracción de texto de PDF escaneados en C#. Utilice el método LoadPdf para importar el PDF escaneado y, a continuación, llame a ReadDocument para extraer el texto. Por ejemplo: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Esta única línea de código carga su PDF y extrae todo el contenido de texto.

¿Qué formatos de archivo admite la biblioteca OCR para la extracción de texto?

IronOCR es compatible con una amplia gama de formatos de documentos para el escaneado OCR. Para imágenes, funciona con los formatos JPG, PNG, GIF, TIFF y BMP. En el caso de los PDF, maneja documentos de una o varias páginas. La biblioteca utiliza la avanzada tecnología Tesseract 5 para garantizar una gran precisión en todos los formatos compatibles.

¿Necesito instalar paquetes adicionales para la funcionalidad OCR?

Sí, para utilizar la funcionalidad OCR completa con IronOCR, necesita instalar el paquete IronOcr.Extensions.AdvancedScan además de la biblioteca principal IronOCR. Este paquete de extensión proporciona capacidades de escaneo mejoradas para procesar documentos escaneados.

¿Puedo extraer texto de imágenes escaneadas y de PDF?

Sí, IronOCR maneja igual de bien las imágenes escaneadas y los archivos PDF. Utilice el método LoadImage para archivos de imagen (JPG, PNG, GIF, TIFF, BMP) o LoadPdf para documentos PDF. El método ReadDocument funciona con ambos tipos de entrada para extraer el contenido de texto.

¿Cómo ayuda el OCR con los documentos PDF en los que no se pueden hacer búsquedas?

IronOCR convierte los PDF basados en imágenes que no permiten búsquedas en contenido que sí permite búsquedas extrayendo el texto mediante tecnología OCR. Esta transformación facilita la localización de información específica dentro de los documentos y mejora significativamente la accesibilidad a los mismos, especialmente para personas con discapacidad visual.

¿Cuáles son las principales aplicaciones empresariales de la extracción de texto mediante OCR?

IronOCR permite a las empresas extraer datos críticos de PDF para su análisis e integración en el sistema, agilizando los flujos de trabajo. Resulta especialmente útil para procesar documentos jurídicos y de investigación y para automatizar la introducción de datos. Los diseñadores y profesionales del marketing también pueden extraer imágenes para mejorarlas y reutilizarlas en diversos proyectos.

¿Puede integrarse IronOCR en aplicaciones existentes?

IronOCR está diseñado para integrarse fácilmente en aplicaciones existentes usando C#, permitiendo a los desarrolladores agregar funcionalidad de OCR a su software con un esfuerzo mínimo.

¿Cuáles son los beneficios de usar IronOCR para la gestión de documentos?

Usar IronOCR para la gestión de documentos agiliza el flujo de trabajo al convertir documentos escaneados en texto buscable y editable, reduciendo la necesidad de entrada manual de datos y mejorando la accesibilidad del documento.

¿Cómo puede IronOCR mejorar la precisión de los datos?

IronOCR mejora la precisión de los datos a través de sus algoritmos de reconocimiento avanzados y características de corrección de imágenes, asegurando que el proceso de extracción de texto sea tanto confiable como preciso.

¿Hay una prueba gratuita disponible para IronOCR?

Sí, Iron Software ofrece una prueba gratuita de IronOCR, permitiendo a los usuarios probar sus características y capacidades antes de tomar una decisión de compra.

Curtis Chau

Chatea con el equipo de ingeniería ahora

Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

¿Listo para empezar?

Nuget Descargas 5,896,332 | Versión: 2026.5 just released

Ver Licencias

¿Aún desplazándote?

¿Quieres una prueba rápida? PM > Install-Package IronOcr
ejecuta una muestra y observa cómo tu imagen se convierte en texto buscable.

Ver Licencias

Destacado del Cliente:

Enfoque del Desarrollador:

Webinars:

Comenzar prueba gratuita de 30 días

En esta página

Lectura de documentos escaneados en C# con IronOCR

Instala IronOCR con el Administrador de Paquetes NuGet

Copie y ejecute este fragmento de código.

Despliegue para probar en su entorno real

Flujo de trabajo mínimo (5 pasos)

¿Cómo extraer texto de documentos escaneados?

¿Cómo es el documento de entrada?

¿Qué implemento en el código OCR?

¿Qué resultados puedo esperar del procesamiento OCR?

Opciones avanzadas de procesamiento de documentos

Procesamiento de documentos de varias páginas

Optimización del rendimiento del OCR

Creación de archivos PDF con función de búsqueda

Trabajar con diferentes tipos de documentos

Procesamiento de documentos heredados

Soporte de idiomas

Prácticas recomendadas para la digitalización de documentos

Solución de problemas comunes

Próximos pasos

Preguntas Frecuentes

¿Cómo puedo extraer texto de un PDF escaneado en C#?

¿Qué formatos de archivo admite la biblioteca OCR para la extracción de texto?

¿Necesito instalar paquetes adicionales para la funcionalidad OCR?

¿Puedo extraer texto de imágenes escaneadas y de PDF?

¿Cómo ayuda el OCR con los documentos PDF en los que no se pueden hacer búsquedas?

¿Cuáles son las principales aplicaciones empresariales de la extracción de texto mediante OCR?

¿Puede integrarse IronOCR en aplicaciones existentes?

¿Cuáles son los beneficios de usar IronOCR para la gestión de documentos?

¿Cómo puede IronOCR mejorar la precisión de los datos?

¿Hay una prueba gratuita disponible para IronOCR?

¿Aún desplazándote?

Equipo de soporte de Iron

Comenzar prueba gratuita de 30 días

En esta página

Lectura de documentos escaneados en C# con IronOCR

Instala IronOCR con el Administrador de Paquetes NuGet

Copie y ejecute este fragmento de código.

Despliegue para probar en su entorno real

Flujo de trabajo mínimo (5 pasos)

¿Cómo extraer texto de documentos escaneados?

¿Cómo es el documento de entrada?

¿Qué implemento en el código OCR?

¿Qué resultados puedo esperar del procesamiento OCR?

Opciones avanzadas de procesamiento de documentos

Procesamiento de documentos de varias páginas

Optimización del rendimiento del OCR

Creación de archivos PDF con función de búsqueda

Trabajar con diferentes tipos de documentos

Procesamiento de documentos heredados

Soporte de idiomas

Prácticas recomendadas para la digitalización de documentos

Solución de problemas comunes

Próximos pasos

Preguntas Frecuentes

¿Cómo puedo extraer texto de un PDF escaneado en C#?

¿Qué formatos de archivo admite la biblioteca OCR para la extracción de texto?

¿Necesito instalar paquetes adicionales para la funcionalidad OCR?

¿Puedo extraer texto de imágenes escaneadas y de PDF?

¿Cómo ayuda el OCR con los documentos PDF en los que no se pueden hacer búsquedas?

¿Cuáles son las principales aplicaciones empresariales de la extracción de texto mediante OCR?

¿Puede integrarse IronOCR en aplicaciones existentes?

¿Cuáles son los beneficios de usar IronOCR para la gestión de documentos?

¿Cómo puede IronOCR mejorar la precisión de los datos?

¿Hay una prueba gratuita disponible para IronOCR?

¿Aún desplazándote?

Obtén tu GRATIS

Próximo paso: Comenzar prueba gratuita de 30 días

Thank You

Próximo paso: Comenzar prueba gratuita de 30 días

Want to deploy IronSuite to a live project for FREE?

What’s included?

Confiado por millones de ingenieros en todo el mundo

Equipo de soporte de Iron