Extracción de texto OCR de PDF

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Extracción de texto OCR de PDF

Iron Tesseract puede leer muchos formatos de imagen y también documentos PDF. Esta función no es posible con motores Tesseract gratuitos convencionales.

OcrInput ofrece la opción de corregir automáticamente las características del PDF si las digitalizaciones son de mala calidad.

Los desarrolladores pueden especificar leer un PDF completo, una selección de páginas o un área de recorte única.

Cómo realizar OCR en archivos PDF en C#

Descargar la biblioteca C# a archivo PDF OCR
Utilice el método AddPdf para agregar un documento PDF
Agregue ciertas páginas del documento PDF con el método AddPdfPages
Utilice el método Read para realizar OCR en el PDF agregado
Ver todos los valores de los códigos QR en la propiedad Barcodes . Acceder a la propiedad Texto para obtener el resultado del OCR.

C# PDF OCR

Muchas herramientas de OCR funcionan bien en condiciones óptimas, pero cuando necesitas algo que haga el trabajo con una estabilidad y precisión mejoradas en cualquier condición, la solución de extracción de texto IronOCR es lo que necesitas.

IronOCR para extracción de texto está construido desde cero y con la capacidad de convertir imágenes del mundo real con un 99 por ciento de precisión.

IronTesseract, nuestra biblioteca OCR nativa en C#, puede reconocer caracteres de una manera casi humana a partir de imágenes del mundo real que no siempre son de buena calidad y a veces están torcidas.

Nuestro OCR permite que las características de PDF o imagen se corrijan automáticamente si las escaneos son de baja calidad.

Mientras te llevo a través de la solución OCR de mejor categoría disponible ahora mismo, podrás ver por ti mismo.

¿Por qué IronOCR para la extracción de texto OCR de imágenes o PDF?

Elegir la solución IronOCR para la gestión de Tesseract es la elección obvia si consideramos sus habilidades únicas, que incluyen las siguientes:

El motor de extracción de texto OCR de IronOCR para PDF funciona directamente desde la caja en puro .NET
No requiere que Tesseract esté instalado en tu máquina.
Funciona excepcionalmente bien con los últimos motores: Tesseract 5 (así como Tesseract 4 y 3).
Está disponible para cualquier proyecto .NET: .NET Framework 4.5 +, .NET Standard 2 + y .NET Core 2, 3 y 5.
Tiene una precisión y velocidad mejoradas sobre otros Tesseracts de código abierto.
IronOCR admite plataformas de desarrollo Xamarin, Mono, Azure y Docker.
Puedes gestionar sistemas de diccionario Tesseract complejos usando paquetes NuGet.
Puede extraer texto de PDFs, Tiffs de múltiples cuadros y todos los principales archivos de imagen sin ajustes adicionales.
Puede corregir escaneos de imágenes bajas en calidad y sesgados para obtener los mejores resultados de tu proyecto de extracción de texto.

¿Tiene escaneos de baja calidad? ¡Sin problema!

IronOCR se destaca a un nivel superior cuando se trata de tareas de OCR. En realidad, muchos productos similares están hechos para funcionar bien con texto o imágenes impresas por máquina, de alta resolución y perfectas, y así se vuelven inexactos o fallan en aplicaciones del mundo real. Sin embargo, este no es el caso con IronOCR.

IronOCR destaca en corregir documentos imperfectos. Puede enderezar una imagen escaneada sesgada y mejorar fotos de baja calidad para que se conviertan en documentos PDF o imágenes que se puedan buscar. Esto es lo que hace que nuestro producto se destaque de los demás.

Ajuste el rendimiento de IronOCR para que se adapte a su flujo de trabajo

Con la solución de OCR de Iron Software, puedes ajustar el rendimiento de tus tareas de extracción de texto para obtener el equilibrio correcto para tu flujo de trabajo. Sabemos que esto es muy importante para muchos usuarios y desarrolladores, por lo que hemos construido nuestra solución de OCR para que sea ajustable en rendimiento y flexible.

Por ejemplo, un factor muy importante que influye en la velocidad de un trabajo de OCR es la calidad de la imagen de entrada. Cuando hay menos ruido de fondo y la imagen tiene un dpi más alto (200 dpi es un buen rango), más rápido es el rendimiento y más precisos los resultados de OCR. Sin embargo, con la función de ajuste de rendimiento de IronOCR, incluso tareas con imágenes de baja calidad se pueden completar rápidamente.

Además, seleccionar imágenes de entrada o formatos de texto escaneados con menos ruido digital, como PNG o TIFF, también puede producir resultados más rápidos que formatos de imagen de menor calidad como JPEG.

Instalar la solución IronOCR es muy sencillo

La suite de Iron Software es muy fácil de instalar y ejecutar. Está disponible para las plataformas de desarrollo más populares. Nuestra solución tiene soporte multiplataforma que incluye Windows, Linux, macOS, Azure, AWS y Docker — hay una razón por la que C# lo convierte en el motor Tesseract OCR más preferido entre los desarrolladores.

Soporte para más de 125 idiomas internacionales

Para trabajos de OCR, un software se vuelve más útil cuando admite varios idiomas. La solución IronOCR se hace indispensable porque admite 125 idiomas internacionales. Estos idiomas se pueden instalar a través de paquetes de idiomas distribuidos como archivos DLL. Se pueden descargar desde este sitio web o el Gestor de Paquetes NuGet para Visual Studio.

Cómo instalar paquetes de idiomas de OCR

Se admiten ciento veinte idiomas. Puedes descargar cualquier paquetes de idiomas OCR adicionales usando dos métodos:

Instalar el paquete NuGet

Busca en NuGet por IronOCR Languages.

Utilizando el método de datos OCR

Descarga el archivo ocrdata y agrégalo a tu proyecto .NET o archivos de programa.

Cree fácilmente documentos que se puedan buscar a partir de sus archivos o imágenes escaneados

Una característica de la que estamos muy orgullosos es la capacidad de nuestro software Tesseract para crear un documento PDF que se puede buscar o texto que se puede buscar a partir de imágenes de entrada o un archivo PDF escaneado. Puedes exportar tu resultado de OCR como un PDF que será un documento PDF que se puede buscar en C# y VB.NET. Esto realmente puede ayudar a empresas y gobiernos con la población de bases de datos, SEO y PDFs.

Aproveche el poder de la mejor herramienta de OCR

IronOCR es la herramienta de mejor categoría para extraer texto de imágenes y documentos. Viene con una serie de características, funcionalidades y soluciones que te ofrecen una experiencia fluida y sencilla al completar tareas de OCR.

Nuestras bibliotecas de OCR Tesseract C# pueden ayudarte a extraer texto de imágenes y documentos escaneados en entornos de desarrollo como aplicaciones C# y .NET.

Con IronOCR, incluso puedes abrir documentos PDF protegidos con contraseña con facilidad, así como extraer texto sin problemas.

También tiene las siguientes características:

No requiere archivos ejecutables o código C++
Soporte completo de OCR para PDF
Compatible con MVC, aplicaciones Web, Desktop, de Consola y de Servidor
Soporte completo para .NET Core, Standard y Framework
Lee usando C# & VB .NET
Lee códigos QR y de barras
Exporta OCR a XHTML o un documento PDF que se puede buscar
Soporta multithreading
Extrae imágenes, coordenadas, estadísticas, fuentes y mucho más

Dé el paso audaz hacia IronOCR

Considerando las características de esta increíble solución OCR, no puedes equivocarte si decides probar IronOCR.

Usar nuestro software está solo a unos clics de distancia. Empieza por instalar IronOCR — una tarea increíblemente fácil. Además, hay guías paso a paso increíblemente útiles y detalladas sobre cómo usar cualquiera de nuestras herramientas y Cómo hacerlo, sin mencionar nuestro centro de soporte lleno de recursos que responde a consultas lo más pronto posible (casi inmediatamente).

No dudes — elige IronOCR hoy. Es el primer y más importante paso para aprender cómo leer archivos PDF en C#.

Si queda alguna duda en tu mente, nuestra clave de licencia de prueba gratuita es perfecta para ti. Puede ayudarte a explorar el potencial completo de la última versión de IronOCR sin condiciones financieras. Puede ayudarte a decidir qué licencia de software es la correcta para ti. Si no estás seguro, no dudes en contactar a nuestro equipo de expertos, independientemente de tu ubicación.

Aprenda a crear archivos PDF con capacidad de búsqueda con IronOCR