Cómo leer documentos escaneados en C# | IronOCR

Leer documentos escaneados en C# con IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

Muchos PDFs contienen texto basado en imágenes no buscable. IronOCR puede convertir esto en contenido buscable, facilitando la localización de información específica y mejorando la accesibilidad de documentos, especialmente para personas con discapacidades visuales.

En lugar de copiar o recrear manualmente texto e imágenes, la extracción automatizada garantiza precisión y eficiencia. Esto es particularmente útil para la investigación, documentos legales y creación de contenido, donde reutilizar partes específicas de PDFs es común.

Las empresas pueden extraer datos críticos de PDFs para análisis o integración de sistemas, optimizando flujos de trabajo. Los diseñadores y mercadólogos también pueden extraer imágenes para mejorarlas y reutilizarlas en varios proyectos.

En este tutorial, exploraremos los métodos OcrPdfInput, cubriendo las opciones y parámetros disponibles para mostrar cómo IronOCR simplifica la extracción de texto e imágenes de PDFs para varias aplicaciones.

Para usar esta función, también debe instalar el paquete IronOcr.Extensions.AdvancedScan.

Inicio Rápido: Extraer Texto de un PDF o Imagen Escaneada

Comience en segundos: con una línea de código cargará su PDF escaneado o imagen usando OcrInput.LoadPdf o LoadImage de IronOCR y extraerá instantáneamente el texto a través de ReadDocument. Perfecto para desarrolladores que quieren tener OCR funcionando rápidamente.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronOCR con el gestor de paquetes NuGet

    PM > Install-Package IronOcr

  2. Copie y ejecute este fragmento de código.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronOCR en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer

Ejemplo de lectura de documentos escaneados

Para extraer texto de todas las imágenes dentro de un documento, use el método ReadDocument. Este método procesa el documento y devuelve un objeto que contiene el texto extraído, al cual se puede acceder a través de la propiedad Text. El ejemplo a continuación muestra cómo usar este método con un archivo TIFF de ejemplo.

@@--SOPORTE-i-ABIERTO--@@

  • El método actualmente solo funciona para inglés, chino, japonés, coreano y alfabeto latino.
  • Usar escaneo avanzado en .NET Framework requiere que el proyecto se ejecute en arquitectura x64. @@--CIERRE DE SOPORTE--@@

Entrada

input

Código

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Resultado

output

Si necesita realizar OCR en un archivo PDF en su lugar, simplemente reemplace el método LoadImage por LoadPdf. Esto permite que IronOCR procese y extraiga texto de PDFs escaneados de la misma manera.

Preguntas Frecuentes

¿Cómo puedo leer documentos escaneados usando C#?

Puedes leer documentos escaneados en C# usando IronOCR. Primero, descarga la biblioteca C# desde NuGet, luego importa tu documento escaneado usando el método LoadImage para imágenes o LoadPdf para PDFs. Finalmente, extrae el texto usando el método ReadDocument.

¿Cuál es el propósito de convertir texto basado en imágenes en PDFs a contenido buscable?

Convertir texto basado en imágenes en PDFs a contenido buscable con IronOCR mejora la accesibilidad, haciendo más fácil localizar información específica y ayudando a personas con discapacidades visuales.

¿Puedo extraer texto de imágenes y PDFs con IronOCR?

Sí, IronOCR te permite extraer texto de tanto imágenes como PDFs. Usa el método LoadImage para imágenes y el método LoadPdf para PDFs, seguido por el método ReadDocument para realizar la extracción.

¿Cuáles son las capacidades de soporte de idiomas de IronOCR?

IronOCR soporta la extracción de texto en inglés, chino, japonés, coreano y LatinAlphabet, siendo versátil para el procesamiento de documentos multilingües.

¿Qué arquitectura se requiere para utilizar funciones de escaneo avanzadas en IronOCR?

Para usar funciones de escaneo avanzadas en IronOCR en el .NET Framework, tu proyecto debe ejecutarse en arquitectura x64.

¿Cómo puedo usar IronOCR para la extracción automática de texto en aplicaciones empresariales?

IronOCR puede usarse en aplicaciones empresariales para la extracción automática de texto importando documentos escaneados, utilizando los métodos LoadPdf o LoadImage, y extrayendo texto con el método ReadDocument. Esto optimiza los flujos de trabajo permitiendo a las empresas analizar e integrar datos críticos de manera eficiente.

¿Qué pasos están involucrados en la extracción de texto de un PDF escaneado usando IronOCR?

Para extraer texto de un PDF escaneado usando IronOCR, descarga la biblioteca, importa el PDF usando el método LoadPdf, luego extrae el texto con el método ReadDocument. El texto extraído puede ser guardado o exportado según sea necesario.

¿Cómo beneficia IronOCR a diseñadores y comercializadores?

IronOCR beneficia a diseñadores y comercializadores permitiéndoles extraer imágenes y texto de PDFs para mejora y reutilización en varios proyectos, aumentando la eficiencia y las posibilidades creativas.

¿Qué paquete es necesario instalar para usar las funciones avanzadas de IronOCR?

Para acceder a las funciones avanzadas de IronOCR, necesitas instalar el paquete IronOcr.Extensions.AdvancedScan desde NuGet.

Curtis Chau
Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

Leer más
¿Listo para empezar?
Nuget Descargas 5,167,857 | Version: 2025.11 recién lanzado