Cómo leer documentos escaneados en C# | IronOCR

Lectura de documentos escaneados en C# con IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR permite a los desarrolladores de C# extraer texto de archivos PDF e imágenes escaneadas mediante tecnología OCR, convirtiendo documentos basados en imágenes en los que no se pueden realizar búsquedas en contenidos accesibles con sólo unas pocas líneas de código.

Muchos PDFs contienen texto basado en imágenes no buscable. IronOCR convierte todo esto en contenido que permite realizar búsquedas, lo que facilita la localización de información específica y mejora la accesibilidad de los documentos, especialmente para las personas con discapacidad visual.

En lugar de copiar o recrear manualmente texto e imágenes, la extracción automatizada garantiza precisión y eficiencia. Esto resulta especialmente útil para la investigación, los documentos jurídicos y la creación de contenidos en los que es habitual reutilizar partes específicas de PDF.

Las empresas pueden extraer datos críticos de PDFs para análisis o integración de sistemas, optimizando flujos de trabajo. Los diseñadores y mercadólogos también pueden extraer imágenes para mejorarlas y reutilizarlas en varios proyectos.

En este tutorial, exploraremos los métodos OcrPdfInput, cubriendo las opciones y parámetros disponibles para mostrar cómo IronOCR simplifica la extracción de texto e imágenes de PDFs para varias aplicaciones.

Para usar esta función, también debe instalar el paquete IronOcr.Extensions.AdvancedScan.

Inicio Rápido: Extraer Texto de un PDF o Imagen Escaneada

Empiece en cuestión de segundos: con una línea de código cargará su PDF o imagen escaneada mediante OcrInput.LoadPdf o LoadImage de IronOCR y extraiga el texto al instante mediante ReadDocument. Perfecto para desarrolladores que quieren tener OCR funcionando rápidamente.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronOCR con el gestor de paquetes NuGet

    PM > Install-Package IronOcr

  2. Copie y ejecute este fragmento de código.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronOCR en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer

¿Cómo extraer texto de documentos escaneados?

Para extraer texto de todas las imágenes dentro de un documento, use el método ReadDocument. Este método procesa el documento y devuelve un objeto que contiene el texto extraído, al que se puede acceder a través de la propiedad Text. El ejemplo a continuación muestra cómo usar este método con un archivo TIFF de ejemplo.

IronOCR es compatible con una amplia variedad de formatos de documentos para escanear. En cuanto a las imágenes, se puede trabajar con los formatos JPG, PNG, GIF, TIFF y BMP, mientras que la compatibilidad con PDF incluye tanto documentos de una sola página como de varias. La biblioteca utiliza la avanzada tecnología Tesseract 5 para garantizar una gran precisión en todos los formatos compatibles.

[{i:(

  • El método actualmente solo funciona para inglés, chino, japonés, coreano y alfabeto latino.
  • Usar escaneo avanzado en .NET Framework requiere que el proyecto se ejecute en arquitectura x64.
    @@--CIERRE DE SOPORTE--@@

¿Cómo es el documento de entrada?

Página del libro de Harry Potter que muestra el capítulo ocho "La fiesta de la muerte" con texto narrativo sobre Hogwarts en octubre

¿Cómo implemento el código OCR?

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

¿Qué resultados puedo esperar del procesamiento OCR?

Ventana de depuración de Visual Studio con un ejemplo de texto de Harry Potter procesado por OCR a partir de un documento escaneado

Si necesita realizar OCR en un archivo PDF en su lugar, simplemente reemplace el método LoadImage por LoadPdf. Esto permite que IronOCR procese y extraiga texto de PDFs escaneados de la misma manera.

Opciones avanzadas de procesamiento de documentos

Cuando se trabaja con documentos escaneados, a menudo se necesita un mayor control sobre el proceso de OCR. IronOCR ofrece varias funciones avanzadas para mejorar los resultados de extracción de texto.

Procesamiento de documentos de varias páginas

Para documentos con varias páginas, IronOCR gestiona eficazmente el procesamiento por lotes:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load a multi-page PDF
input.LoadPdf("multi-page-document.pdf");

// Process all pages
OcrResult result = ocr.ReadDocument(input);

// Access individual page results
foreach (var page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Text}");
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Optimización del rendimiento del OCR

La calidad de los documentos escaneados influye directamente en la precisión del OCR. IronOCR incluye filtros de optimización de imágenes integrados para mejorar el reconocimiento de texto:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();

// Load and enhance image quality
input.LoadImage("low-quality-scan.jpg");
input.Deskew();  // Correct image skew
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white

OcrResult result = ocr.ReadDocument(input);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Creación de archivos PDF con función de búsqueda

Una de las funciones más valiosas a la hora de procesar documentos escaneados es la posibilidad de crear archivos PDF con función de búsqueda. Se mantiene el aspecto del documento original al tiempo que se añade una capa de texto:

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput();
input.LoadPdf("scanned-document.pdf");

// Process and save as searchable PDF
OcrResult result = ocr.ReadDocument(input);
result.SaveAsSearchablePdf("searchable-output.pdf");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Trabajar con diferentes tipos de documentos

IronOCR destaca en el procesamiento de varios tipos de documentos que se encuentran habitualmente en entornos empresariales. Ya se trate de facturas, contratos o documentos históricos, la biblioteca ofrece funciones especializadas para extraer datos de distintas fuentes.

Procesamiento de documentos heredados

Muchas organizaciones tienen archivos de documentos escaneados en formatos antiguos. IronOCR se encarga de ello con eficacia, incluida la compatibilidad con archivos TIFF multipágina utilizados habitualmente en los sistemas de gestión de documentos.

Soporte de idiomas

Aunque este ejemplo se centra en el texto en inglés, IronOCR es compatible con más de 125 idiomas internacionales. Esto lo hace ideal para procesar documentos multilingües o en idiomas distintos del inglés.

Prácticas recomendadas para la digitalización de documentos

Lograr resultados óptimos al procesar documentos escaneados:

  1. Calidad del escaneado: Utilice una resolución mínima de 300 DPI para obtener los mejores resultados
  2. Formato de archivo: Los formatos TIFF y PNG conservan mejor la calidad que JPEG para los documentos de texto
  3. Preprocesamiento: Aplica los filtros adecuados en función del estado del documento
  4. Rendimiento: Para grandes lotes, considere el uso de capacidades multihilo

Solución de problemas comunes

Cuando se trabaja con documentos escaneados, pueden surgir varios problemas. A continuación se ofrecen soluciones a problemas comunes:

  • Escaneados de baja calidad: Aplica filtros de mejora antes del procesamiento OCR
  • Documentos sesgados: Utiliza el método Deskew() para corregir la orientación
  • Contenido mixto: Procesar regiones específicas si los documentos contienen elementos textuales y no textuales

Para obtener una guía más detallada, explore nuestro tutorial completo de OCR en C# o consulte ejemplos sencillos de OCR para empezar rápidamente.

Próximos pasos

Ahora que ya sabes cómo extraer texto de documentos escaneados, puedes explorar funciones más avanzadas como hacer que cualquier PDF sea consultable o procesar corrientes PDF para aplicaciones web. La flexibilidad de IronOCR lo hace adecuado para todo, desde la simple digitalización de documentos hasta complejos flujos de trabajo de procesamiento de documentos empresariales.

Preguntas Frecuentes

¿Cómo puedo extraer texto de un PDF escaneado en C#?

IronOCR simplifica la extracción de texto de PDF escaneados en C#. Utilice el método LoadPdf para importar el PDF escaneado y, a continuación, llame a ReadDocument para extraer el texto. Por ejemplo: var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text; Esta única línea de código carga su PDF y extrae todo el contenido de texto.

¿Qué formatos de archivo admite la biblioteca OCR para la extracción de texto?

IronOCR es compatible con una amplia gama de formatos de documentos para el escaneado OCR. Para imágenes, funciona con los formatos JPG, PNG, GIF, TIFF y BMP. En el caso de los PDF, maneja documentos de una o varias páginas. La biblioteca utiliza la avanzada tecnología Tesseract 5 para garantizar una gran precisión en todos los formatos compatibles.

¿Necesito instalar paquetes adicionales para la funcionalidad OCR?

Sí, para utilizar la funcionalidad OCR completa con IronOCR, necesita instalar el paquete IronOcr.Extensions.AdvancedScan además de la biblioteca principal IronOCR. Este paquete de extensión proporciona capacidades de escaneo mejoradas para procesar documentos escaneados.

¿Puedo extraer texto de imágenes escaneadas y de PDF?

Sí, IronOCR maneja igual de bien las imágenes escaneadas y los archivos PDF. Utilice el método LoadImage para archivos de imagen (JPG, PNG, GIF, TIFF, BMP) o LoadPdf para documentos PDF. El método ReadDocument funciona con ambos tipos de entrada para extraer el contenido de texto.

¿Cómo ayuda el OCR con los documentos PDF en los que no se pueden hacer búsquedas?

IronOCR convierte los PDF basados en imágenes que no permiten búsquedas en contenido que sí permite búsquedas extrayendo el texto mediante tecnología OCR. Esta transformación facilita la localización de información específica dentro de los documentos y mejora significativamente la accesibilidad a los mismos, especialmente para personas con discapacidad visual.

¿Cuáles son las principales aplicaciones empresariales de la extracción de texto mediante OCR?

IronOCR permite a las empresas extraer datos críticos de PDF para su análisis e integración en el sistema, agilizando los flujos de trabajo. Resulta especialmente útil para procesar documentos jurídicos y de investigación y para automatizar la introducción de datos. Los diseñadores y profesionales del marketing también pueden extraer imágenes para mejorarlas y reutilizarlas en diversos proyectos.

Curtis Chau
Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

Leer más
¿Listo para empezar?
Nuget Descargas 5,246,844 | Versión: 2025.12 recién lanzado