Cómo leer PDFs en OCR C#

Cómo leer archivos PDF en C# con IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

PDF significa "Formato de Documento Portátil." Es un formato de archivo desarrollado por Adobe que preserva las fuentes, imágenes, gráficos y diseño de cualquier documento de origen, independientemente de la aplicación y plataforma utilizada para crearlo. Los archivos PDF se utilizan generalmente para compartir y ver documentos en un formato consistente, sin importar el software o hardware usado para abrirlos. IronOcr maneja varias versiones de documentos PDF con facilidad.

como-título:2(Inicio rápido: Realiza OCR en un archivo PDF en segundos)

Configura OCR rápidamente con IronOCR construyendo un OcrPdfInput que apunte a tu PDF, luego llama a Read—sin necesidad de configuración compleja. Este ejemplo de una sola línea muestra lo fácil que es extraer texto de un PDF usando IronOCR.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronOCR con el gestor de paquetes NuGet

    PM > Install-Package IronOcr

  2. Copie y ejecute este fragmento de código.

    using var result = new IronOcr.IronTesseract().Read(new IronOcr.OcrPdfInput("document.pdf", PdfContents.TextAndImages));
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronOCR en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer


Leer ejemplo en PDF

Comienza instanciando la clase IronTesseract para realizar OCR. Luego, utiliza una declaración 'using' para crear un objeto OcrPdfInput, pasándole la ruta del archivo PDF. Finalmente, realiza OCR usando el método Read.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf.cs
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
$vbLabelText   $csharpLabel
Leer archivo PDF

En la mayoría de los casos, no es necesario especificar la propiedad DPI. Sin embargo, proporcionar un número alto de DPI en la construcción de OcrPdfInput puede mejorar la precisión de lectura.

Ejemplo de lectura de páginas PDF

Cuando se leen páginas específicas de un documento PDF, el usuario puede especificar el número de índice de página para importar. Para hacer esto, pasa la lista de índices de páginas al parámetro PageIndices al construir el OcrPdfInput. Ten en cuenta que los índices de página utilizan numeración basada en cero.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-pdf-pages.cs
using IronOcr;
using System.Collections.Generic;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Create page indices list
List<int> pageIndices = new List<int>() { 0, 2 };

// Add PDF
using var pdfInput = new OcrPdfInput("Potter.pdf", PageIndices: pageIndices);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(pdfInput);
Imports IronOcr
Imports System.Collections.Generic

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Create page indices list
Private pageIndices As New List(Of Integer)() From {0, 2}

' Add PDF
Private pdfInput = New OcrPdfInput("Potter.pdf", PageIndices:= pageIndices)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(pdfInput)
$vbLabelText   $csharpLabel

Especifique la región de escaneado

Al acotar el área a ser leída, puedes mejorar significativamente la eficiencia de lectura. Para lograr esto, puedes especificar la región precisa del PDF importado que necesitas leer. En el ejemplo de código a continuación, he instruido a IronOcr para que se enfoque únicamente en extraer el número de capítulo y el título.

:path=/static-assets/ocr/content-code-examples/how-to/input-pdfs-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Specify crop regions
Rectangle[] scanRegions = { new Rectangle(550, 100, 600, 300) };

// Add PDF
using (var pdfInput = new OcrPdfInput("Potter.pdf", ContentAreas: scanRegions))
{
    // Perform OCR
    OcrResult ocrResult = ocrTesseract.Read(pdfInput);

    // Output the result to console
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Specify crop regions
Private scanRegions() As Rectangle = { New Rectangle(550, 100, 600, 300) }

' Add PDF
Using pdfInput = New OcrPdfInput("Potter.pdf", ContentAreas:= scanRegions)
	' Perform OCR
	Dim ocrResult As OcrResult = ocrTesseract.Read(pdfInput)

	' Output the result to console
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Resultado OCR

Leer región específica

Preguntas Frecuentes

¿Cómo puedo leer un archivo PDF en C#?

Puedes leer un archivo PDF en C# usando IronOCR. Comienza instanciando la clase IronTesseract, luego usa una declaración 'using' para crear un objeto OcrPdfInput con la ruta del archivo. Finalmente, aplica el método Read para realizar OCR en el documento.

¿Qué pasos son necesarios para realizar OCR en páginas específicas de un PDF?

Para realizar OCR en páginas específicas de un PDF usando IronOCR, pasa una lista de índices de página al parámetro PageIndices al construir el OcrPdfInput. En IronOCR, los índices de página son de base cero, por lo que la primera página se indexa como 0.

¿Cómo puedo mejorar la precisión del OCR en PDFs?

Puedes mejorar la precisión del OCR en PDFs en IronOCR especificando un DPI alto durante la construcción del OcrPdfInput. Aunque generalmente no es necesario, un DPI más alto puede mejorar la precisión de lectura.

¿Es posible seleccionar una región específica de un PDF para el procesamiento OCR?

Sí, con IronOCR, puedes seleccionar una región específica de un PDF para el procesamiento OCR usando el método SelectRegion. Esto te permite centrarte en extraer contenido de un área definida, mejorando la eficiencia.

¿Cuál es la importancia de la numeración de base cero al leer páginas de PDF?

En IronOCR, se utiliza la numeración de base cero para especificar índices de páginas al leer páginas de PDF. Esto significa que la primera página se indexa como 0, lo que ayuda a especificar con precisión qué páginas procesar.

¿Necesito gestionar recursos manualmente al realizar OCR en PDFs?

Al usar IronOCR, se recomienda utilizar una declaración 'using' al trabajar con objetos OcrInput. Esto asegura que los recursos se dispongan adecuadamente después de completar el proceso de OCR.

¿Cómo puedo comenzar a usar IronOCR para la lectura de PDF?

Para comenzar con IronOCR para la lectura de PDF, descarga la biblioteca C# desde NuGet, prepara tu PDF, construye un objeto OcrPdfInput con la ruta del archivo y utiliza el método Read para el procesamiento OCR.

Curtis Chau
Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

Leer más
Revisado por
Jeff Fritz
Jeffrey T. Fritz
Gerente Principal de Programas - Equipo de la Comunidad .NET
Jeff también es Gerente Principal de Programas para los equipos de .NET y Visual Studio. Es el productor ejecutivo de la serie de conferencias virtuales .NET Conf y anfitrión de 'Fritz and Friends', una transmisión en vivo para desarrolladores que se emite dos veces a la semana donde habla sobre tecnología y escribe código junto con la audiencia. Jeff escribe talleres, presentaciones, y planifica contenido para los eventos de desarrolladores más importantes de Microsoft, incluyendo Microsoft Build, Microsoft Ignite, .NET Conf y la Cumbre de Microsoft MVP.
¿Listo para empezar?
Nuget Descargas 5,167,857 | Version: 2025.11 recién lanzado