Cómo leer documentos escaneados en C# | IronOCR

How to Read Scanned Documents Using IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

Many PDFs contain non-searchable, image-based text. IronOCR can convert this into searchable content, making it easier to locate specific information and enhancing document accessibility, especially for individuals with visual impairments.

Instead of manually copying or recreating text and images, automated extraction ensures accuracy and efficiency. This is particularly useful for research, legal documents, and content creation, where reusing specific portions of PDFs is common.

Businesses can extract critical data from PDFs for analysis or system integration, streamlining workflows. Designers and marketers can also extract images for enhancement and reuse in various projects.

In this tutorial, we'll explore the OcrPdfInput methods, covering the available options and parameters to showcase how IronOCR simplifies PDF text and image extraction for various applications.

To use this function, you must also install the IronOcr.Extensions.AdvancedScan package.

Quickstart: Extract Text from a Scanned PDF or Image

Get started in seconds—with one line of code you’ll load your scanned PDF or image using IronOCR’s OcrInput.LoadPdf or LoadImage and instantly extract the text via ReadDocument. Perfect for developers who want OCR up and running fast.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer

Read Scanned Documents Example

To extract text from all images within a document, use the ReadDocument method. This method processes the document and returns an object containing the extracted text, which can be accessed through the Text property. The example below demonstrates how to use this method with a sample TIFF file.

Por favor nota

  • The method currently only works for English, Chinese, Japanese, Korean, and LatinAlphabet.
  • Using advanced scan on .NET Framework requires the project to run on x64 architecture.

Input

input

Code

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Output

output

If you need to perform OCR on a PDF file instead, simply replace the LoadImage method with LoadPdf. This allows IronOCR to process and extract text from scanned PDFs in the same way.

Preguntas Frecuentes

¿Cómo puedo leer documentos escaneados usando C#?

Puedes leer documentos escaneados en C# usando IronOCR. Primero, descarga la biblioteca C# desde NuGet, luego importa tu documento escaneado usando el método LoadImage para imágenes o LoadPdf para PDFs. Finalmente, extrae el texto usando el método ReadDocument.

¿Cuál es el propósito de convertir texto basado en imágenes en PDFs a contenido buscable?

Convertir texto basado en imágenes en PDFs a contenido buscable con IronOCR mejora la accesibilidad, haciendo más fácil localizar información específica y ayudando a personas con discapacidades visuales.

¿Puedo extraer texto de imágenes y PDFs con IronOCR?

Sí, IronOCR te permite extraer texto de tanto imágenes como PDFs. Usa el método LoadImage para imágenes y el método LoadPdf para PDFs, seguido por el método ReadDocument para realizar la extracción.

¿Cuáles son las capacidades de soporte de idiomas de IronOCR?

IronOCR soporta la extracción de texto en inglés, chino, japonés, coreano y LatinAlphabet, siendo versátil para el procesamiento de documentos multilingües.

¿Qué arquitectura se requiere para utilizar funciones de escaneo avanzadas en IronOCR?

Para usar funciones de escaneo avanzadas en IronOCR en el .NET Framework, tu proyecto debe ejecutarse en arquitectura x64.

¿Cómo puedo usar IronOCR para la extracción automática de texto en aplicaciones empresariales?

IronOCR puede usarse en aplicaciones empresariales para la extracción automática de texto importando documentos escaneados, utilizando los métodos LoadPdf o LoadImage, y extrayendo texto con el método ReadDocument. Esto optimiza los flujos de trabajo permitiendo a las empresas analizar e integrar datos críticos de manera eficiente.

¿Qué pasos están involucrados en la extracción de texto de un PDF escaneado usando IronOCR?

Para extraer texto de un PDF escaneado usando IronOCR, descarga la biblioteca, importa el PDF usando el método LoadPdf, luego extrae el texto con el método ReadDocument. El texto extraído puede ser guardado o exportado según sea necesario.

¿Cómo beneficia IronOCR a diseñadores y comercializadores?

IronOCR beneficia a diseñadores y comercializadores permitiéndoles extraer imágenes y texto de PDFs para mejora y reutilización en varios proyectos, aumentando la eficiencia y las posibilidades creativas.

¿Qué paquete es necesario instalar para usar las funciones avanzadas de IronOCR?

Para acceder a las funciones avanzadas de IronOCR, necesitas instalar el paquete IronOcr.Extensions.AdvancedScan desde NuGet.

Curtis Chau
Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

Leer más
¿Listo para empezar?
Nuget Descargas 5,044,537 | Versión: 2025.11 recién lanzado