COMPARACIóN CON OTROS COMPONENTES

Comparación entre IronOCR y Abbyy Finereader

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

24 de abril, 2022

En este artículo, vamos a comparar dos de las bibliotecas y aplicaciones más comunes para utilizar OCR en documentos e imágenes PDF. Estos son:

Software ABBYY FineReader PDF
IronOCR
Cómo utilizar Abbyy Finereader SDK en C#
1. Instalar Abbyy Finereader SDK para hacer OCR en C#
2. Convierta documentos de imagen y PDF a Microsoft Word, PDF con capacidad de búsqueda, CSV y texto
3. Crear PDF editables a partir de archivos PDF
4. Compatible con PDF/A-1 a PDF/A-3 y PDF/UA
5. Utilice la última tecnología OCR basada en IA para digitalizar, recuperar, editar, proteger, compartir y colaborar en todo tipo de documentos.

1. Introducción

1.1 ABBYY FineReader PDF - Introducción y características

ABBYY FineReader PDF es una aplicación de reconocimiento óptico de caracteres (OCR) creada por ABBYY. Nos permite convertir documentos de imagen (fotos, escaneos, archivos PDF), y capturas de pantalla pueden convertirse en formatos de archivo editables como Microsoft Word, Microsoft Excel, Microsoft PowerPoint, Formato de Texto Enriquecido, HTML, PDF/A, PDF con capacidad de búsqueda, CSV y texto (texto sin formato).

ABBYY FineReader es una aplicación de escritorio disponible para Windows, Linux y macOS. También permite crear formatos editables para archivos pdf. También podemos leer archivos PDF igual que con Adobe Acrobat. ABBYY FineReader integra documentos escaneados en flujos de trabajo digitales.

Gestione y cumplimente documentos de forma sencilla y eficaz para ahorrar tiempo y esfuerzo. Trabaje con cualquier documento de la misma forma metódica, tanto si se ha creado digitalmente como si se ha convertido a partir de papel. Puede modificar el texto, las tablas y el diseño completo de su PDF sin tener que convertirlo primero.

ABBYY FineReader PDF puede crear archivos PDF a partir de más de 25 formatos de archivo diferentes, directamente desde documentos en papel o imprimiendo en una impresora PDF desde prácticamente cualquier aplicación. PDF/A-1 a PDF/A-3 son compatibles para el archivado a largo plazo, y PDF/UA garantiza que el contenido sea accesible cuando se utiliza software de asistencia, como lectores de pantalla. También capacita a los profesionales para maximizar la eficiencia en el lugar de trabajo digital.

Cree y actualice sus propios formularios PDF interactivos con ABBYY FineReader para recopilar información y estandarizar documentos con éxito. Cree formularios combinando campos interactivos de varios tipos, estableciendo acciones, editando formularios PDF existentes o añadiendo elementos de formulario a un PDF convencional.

ABBYY FineReader puede convertir al instante documentos en papel, escaneados y PDF escaneados en PDF con capacidad de búsqueda, lo que le permite recuperar documentos de archivos digitales y acceder a la información que contienen. FineReader PDF es compatible con todos los niveles de cumplimiento y variantes del formato PDF/A, el estándar del sector para el archivado a largo plazo, desde PDF/A-1 hasta PDF/A-3.

FineReader PDF, la última tecnología OCR basada en IA de ABBYY, facilita la digitalización, recuperación, edición, protección, uso compartido y colaboración en todo tipo de documentos en el mismo flujo de trabajo. FineReader también incluye comparación de documentos, que nos ayuda a comparar documentos originales, así como PDF y archivos de imagen convertidos.

1.2 IronOCR - Introducción y características

IronOCR proporciona software para ingenieros que utilizan IronOCR for .NET para leer contenido de texto de fotos y PDF en aplicaciones y sitios web .NET. Escanea fotos en busca de texto y códigos de barras, y es compatible con numerosos idiomas de todo el mundo; puede proporcionar la salida como texto sin formato o como datos estructurados. La biblioteca OCR de Iron Software puede utilizarse en aplicaciones .NET MVC, Web, de consola y de escritorio. Para las implantaciones comerciales, la concesión de licencias cuenta con la asistencia directa del equipo de desarrollo.

Utilizando el último motor Tesseract 5, IronOCR lee texto, códigos de barras y códigos QR de cualquier imagen o formato PDF. Esta biblioteca añade rápidamente OCR a aplicaciones de escritorio, consola y web.
IronOCR admite 127 idiomas internacionales. También admite listas personalizadas de idiomas y palabras.
IronOCR es capaz de leer más de 20 formatos de códigos de barras y códigos QR.
IronOCR admite los formatos de imagen gif y tiff multipágina.
IronOCR corrige las imágenes escaneadas de baja calidad.
IronOCR soporta multithreading - ejecuta uno o más procesos a la vez.
IronOCR puede proporcionar salida de datos estructurados para páginas, párrafos, líneas, palabras, caracteres, etc.
IronOCR es compatible con diversos sistemas operativos, como Windows, Linux, macOS, etc.

2. Creación de un nuevo proyecto en Visual Studio

Abra el software Visual Studio y vaya al "menú archivo". Seleccione "nuevo proyecto" y, a continuación, "Aplicación de consola".

Introduzca el nombre del proyecto y seleccione la ruta del archivo en el cuadro de texto correspondiente. A continuación, haga clic en el botón Crear y seleccione el marco de trabajo Dot net necesario, como se muestra en la siguiente captura de pantalla.

El proyecto de Visual Studio generará ahora la estructura para la aplicación seleccionada y, si ha seleccionado la aplicación de consola, Windows y web, abrirá ahora el archivo program.cs donde podrá introducir el código y compilar/ejecutar la aplicación.

A continuación, podemos añadir la biblioteca para probar el código.

3. Instalar

3.1 Instalar ABBYY FineReader PDF

Podemos descargar ABBYY FineReader aquí.

La imagen de arriba muestra que hay dos versiones, Individual y Business, que puede descargar según sus necesidades. Seleccione la opción "descargar prueba gratuita". Le redirigirá a un formulario como el de la imagen siguiente:

Tendremos que rellenar el formulario para obtener la ubicación del archivo EXE. Haga clic en la opción de descarga para descargar el archivo.

Una vez finalizada la descarga del archivo, podemos hacer doble clic en el archivo EXE para iniciar la instalación. Una vez completado, se mostrará un mensaje emergente, y ya está listo para usar.

3.2 Instalación de IronOCR

La biblioteca IronOCR puede descargarse e instalarse de cuatro formas.

Estos son:

Uso de Visual Studio
Uso de la línea de comandos de Visual Studio.
Descarga directa desde el sitio web de NuGet.
Descarga directa desde el sitio web de IronPDF.

3.2.1 Utilización de Visual Studio

El software Visual Studio ofrece la opción del gestor de paquetes NuGet para instalar el paquete directamente en la solución. La siguiente captura de pantalla muestra cómo abrir el Gestor de paquetes NuGet.

Proporciona un cuadro de búsqueda para mostrar la lista de paquetes del sitio web de NuGet. En el administrador de paquetes, necesitamos buscar la palabra clave IronOCR, como se muestra en la captura de pantalla a continuación:

De la imagen anterior, obtendremos la lista de elementos de búsqueda relacionados. Debemos seleccionar la opción necesaria para instalar el paquete en la solución.

3.2.2 Uso de la línea de comandos de Visual Studio

En Visual Studio, vaya a Herramientas-> Gestor de paquetes NuGet -> Consola del gestor de paquetes

Introduzca la siguiente línea en la pestaña Consola del gestor de paquetes:

Install-Package IronOcr

A continuación, el paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

3.2.3 Descarga directa desde el sitio web de NuGet

La tercera forma es descargar el paquete NuGet directamente del sitio web.

Navegue al [enlace](https://www.nuget.org/packages/Ironocr" target="_blank" rel="nofollow).
Seleccione la opción de descarga de paquetes en el menú de la derecha.
Haga doble clic en el paquete descargado. Se instalará automáticamente.
A continuación, vuelva a cargar la solución y empiece a utilizarla en el proyecto.

3.2.4 Descarga directa desde el sitio web de IronOCR

Haga clic en el [enlace](/csharp/ocr/" target="_blank) aquí para descargar el último paquete directamente desde el sitio web. Una vez descargado, siga los pasos a continuación para agregar el paquete al proyecto.

Haga clic con el botón derecho del ratón en el proyecto de la ventana de la solución.
A continuación, seleccione la opción Referencia y busque la ubicación de la referencia descargada.
A continuación, haga clic en Aceptar para añadir la referencia.

4. Imagen OCR

Tanto IronOCR como Abbyy Finereader disponen de una tecnología OCR que convertirá la imagen en texto buscando.

4.1 Utilizar ABBYY FineReader PDF

A continuación, abra la aplicación ABBYY FineReader PDF que se abrirá con múltiples opciones, como en la imagen de abajo.

A continuación, seleccione la opción "Abrir" en las opciones del Editor OCR. Aparecerá una opción para seleccionar archivos de imagen:

Después de seleccionar un archivo, comenzará automáticamente a escanear la imagen en texto editable y, a continuación, mostrará el resultado en la ventana como en la captura de pantalla siguiente:

La imagen anterior muestra la imagen de origen convertida en texto editable. Sin embargo, el resultado no es demasiado exacto. Algunos de los números no son reconocidos por la aplicación ABBYY FineReader PDF. Esto se muestra claramente en las ventanas de comparación: a la izquierda está la imagen de origen y a la derecha el texto convertido con OCR.

4.2 Utilización de IronOCR

var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;                                     
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;            
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"3.png");         
    var Result = Ocr.Read(Input);       
    Console.WriteLine(Result.Text);        
    Console.ReadKey();          
}

var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;                                     
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;            
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"3.png");         
    var Result = Ocr.Read(Input);       
    Console.WriteLine(Result.Text);        
    Console.ReadKey();          
}

Dim Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("3.png")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
	Console.ReadKey()
End Using

$vbLabelText $csharpLabel

Más arriba se muestra la API de Tesseract 5, que nos permite convertir archivos de imagen en texto. Estamos creando un objeto para Iron Tesseract en la línea de código anterior. También estamos creando un objeto OcrInput que nos permitirá añadir uno o más archivos de imagen. Puede que necesitemos dar la ruta de la imagen disponible dentro del código cuando utilicemos el método add del objeto OcrInput. Se puede añadir cualquier número de imágenes. La función "Read" en el Objeto IronTesseract que construimos antes puede ser utilizada para obtener las imágenes parseando el archivo de imagen y extrayendo el resultado en el resultado OCR. Es capaz de extraer texto de las fotos y convertirlo en una cadena.

También podemos utilizar Tesseract para añadir imágenes de varios fotogramas. "AddMultiFrameTiff" es un método diferente para esta operación. La biblioteca Tesseract lee cada fotograma de la imagen, y cada fotograma se trata como una página distinta. El proceso leerá el primer fotograma de la imagen y pasará al siguiente, y así sucesivamente, hasta que se hayan escaneado todos los fotogramas de la imagen. Este método sólo admite el formato de imagen tiff.

La imagen anterior es la salida del resultado de IronOCR, que es precisa y muestra los datos convertidos correctamente en texto editable.

5. Archivo PDF OCR

IronOCR y ABBYY FineReader PDF ayudan a convertir un archivo PDF en texto editable. ABBYY FineReader PDF proporciona una lista de opciones al usuario como guardar la página, editar imagen, reconocer página, etc. También proporciona opciones de guardado como txt, documento, formato HTML, etc. IronOCR también nos permite guardar los archivos OCR convertidos en HTML, txt, pdf, etc.

5.1 Utilizar ABBYY FineReader PDF

Abra el software ABBYY FineReader PDF. Se abrirá una página como la de la imagen siguiente, que ofrece múltiples opciones.

A continuación, seleccione la opción "Abrir" en las opciones del Editor OCR. Aparecerá una opción para seleccionar la imagen/PDF. Podemos seleccionar un PDF o una imagen, o bien ambos archivos.

Después de seleccionar el archivo, haga clic en el botón Aceptar. Comenzará automáticamente a escanear la imagen en texto editable y mostrará el resultado en una ventana como la de la captura de pantalla siguiente.

La imagen anterior muestra el PDF de origen convertido en texto editable. Sin embargo, el resultado no es del todo exacto. Algunos de los números no son reconocidos por la aplicación ABBYY FineReader PDF. Esto se muestra claramente en las ventanas de comparación: a la izquierda está el PDF de origen y a la derecha el texto convertido con el OCR.

5.2 Utilización de IronOCR

También podemos utilizar OCRInput para gestionar archivos PDF. Todas las páginas de los trabajos serán leídas por la clase de Iron Tesseract. A continuación, se extraerá el texto de las páginas. También podemos abrir documentos protegidos usando una segunda función llamada "AddPdf", que nos permite agregar PDFs a nuestra lista de documentos (contraseña si está protegido). El siguiente código muestra cómo abrir un documento PDF protegido por contraseña:

var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput())
{
      Input.AddPdf("example.pdf", "password");
      var Result = Ocr.Read(Input);
      Console.WriteLine(Result.Text);
}

var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput())
{
      Input.AddPdf("example.pdf", "password");
      var Result = Ocr.Read(Input);
      Console.WriteLine(Result.Text);
}

Dim Ocr = New IronTesseract() ' nothing to configure
Using Input = New OcrInput()
	  Input.AddPdf("example.pdf", "password")
	  Dim Result = Ocr.Read(Input)
	  Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

Los siguientes métodos también son proporcionados por Iron Tesseract:

AñadirPáginaPdf
AñadirPáginasPdf
Podemos leer y extraer contenido de una sola página de un documento PDF utilizando "Addpdfpage". Sólo es necesario especificar el número de página de la que deseamos extraer texto. "AddPdfPage" nos permite extraer texto de numerosas páginas que especifiquemos. En IEnumerable, simplemente necesitamos especificar el número de páginas. También debemos incluir la ubicación del archivo, así como su extensión. Esto se demuestra en el siguiente ejemplo de código:

IEnumerable<int> numbers = new List<int> {2,8,10 };
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
     //single pageInput.AddPdfPage("example.pdf",10);
    //Multiple pageInput.AddPdfPages("example.pdf", numbers);
     var Result = Ocr.Read(Input);
     Console.WriteLine(Result.Text);
     Result.SaveAsTextFile("ocrtext.txt");
}

IEnumerable<int> numbers = new List<int> {2,8,10 };
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
     //single pageInput.AddPdfPage("example.pdf",10);
    //Multiple pageInput.AddPdfPages("example.pdf", numbers);
     var Result = Ocr.Read(Input);
     Console.WriteLine(Result.Text);
     Result.SaveAsTextFile("ocrtext.txt");
}

Dim numbers As IEnumerable(Of Integer) = New List(Of Integer) From {2, 8, 10}
Dim Ocr = New IronTesseract()
Using Input = New OcrInput()
	 'single pageInput.AddPdfPage("example.pdf",10);
	'Multiple pageInput.AddPdfPages("example.pdf", numbers);
	 Dim Result = Ocr.Read(Input)
	 Console.WriteLine(Result.Text)
	 Result.SaveAsTextFile("ocrtext.txt")
End Using

$vbLabelText $csharpLabel

Utilizando la función SaveAsTextFile, podemos almacenar el resultado como un archivo de texto, lo que nos permite descargar el archivo a la ruta del directorio de salida. Además, podemos guardar el archivo en el archivo HTML utilizando SaveAsHocrFile.

6. 6. Otras funciones

6.1 Utilizar ABBYY FineReader PDF

FineReader tiene algunas opciones adicionales como: Dibujar área de texto, Dibujar área de imagen, Dibujar área de tabla, Dibujar área de reconocimiento, etc. Estas opciones ayudan al usuario a mejorar el rendimiento del OCR. Además de realizar OCR, la aplicación también permite a los usuarios realizar operaciones como combinar PDF, dividir PDF, editar PDF, etc.

6.2 Utilización de IronOCR

IronOCR tiene características únicas que nos permiten leer códigos de barras y códigos QR de documentos escaneados. Los siguientes códigos muestran cómo podemos leer códigos de barras de una imagen o documento dado.

var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
   Input.AddImage("barcode.gif");
   var Result = Ocr.Read(Input);
   foreach (var Barcode in Result.Barcodes)
   {
      Console.WriteLine(Barcode.Value);
   }
}

var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.ReadBarCodes = true;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
   Input.AddImage("barcode.gif");
   var Result = Ocr.Read(Input);
   foreach (var Barcode in Result.Barcodes)
   {
      Console.WriteLine(Barcode.Value);
   }
}

Dim Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.ReadBarCodes = True
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
   Input.AddImage("barcode.gif")
   Dim Result = Ocr.Read(Input)
   For Each Barcode In Result.Barcodes
	  Console.WriteLine(Barcode.Value)
   Next Barcode
End Using

$vbLabelText $csharpLabel

Lo anterior es el código que ayuda a leer códigos de barras de una imagen dada o documento PDF. Es capaz de leer más de un código de barras de una página/imagen. Para leer el código de barras, IronOCR tiene una configuración única Ocr.Configuration.ReadBarCodes que ayuda a leer el código de barras; el valor por defecto es falso.

Después de leer la entrada, los datos se guardarán en el objeto llamado OCRResult; tiene una propiedad llamada Barcodes que reúne todos los datos de códigos de barras disponibles en una lista. Utilizando el bucle for-each, podemos obtener uno a uno todos los datos de los códigos de barras. Además, escaneará el código de barras y leerá el valor del código de barras, ¡dos operaciones completadas en un solo proceso!

Además, también admite opciones de subprocesos, lo que significa que podemos realizar varios procesos de OCR al mismo tiempo. IronOCR también es capaz de reconocer un área específica de una región especificada.

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
      var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
      Input.Add("document.png", ContentArea);
      var Result = Ocr.Read(Input);
      Console.WriteLine(Result.Text);
}

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
      var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
      Input.Add("document.png", ContentArea);
      var Result = Ocr.Read(Input);
      Console.WriteLine(Result.Text);
}

Dim Ocr = New IronTesseract()
Using Input = New OcrInput()
	  Dim ContentArea = New System.Drawing.Rectangle() With {
		  .X = 215,
		  .Y = 1250,
		  .Height = 280,
		  .Width = 1335
	  }
	  Input.Add("document.png", ContentArea)
	  Dim Result = Ocr.Read(Input)
	  Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

Este es el código de ejemplo para realizar el OCR en una región específica. Sólo tenemos que especificar la región rectangular en la imagen o PDF - el motor Tesseract en IronOCR permite el reconocimiento del texto.

7. Conclusión

Cuando se emplea IronOCR en el contexto de .NET Framework, Tesseract es sencillo y fácil de usar. Admite fotos y documentos PDF de diversas formas. También proporciona una serie de ajustes para mejorar el rendimiento de la biblioteca Tesseract OCR. Se admiten varios idiomas, así como numerosos idiomas en una sola operación. Para obtener más información sobre Tesseract OCR, visite su sitio web.

ABBYY FineReader PDF es una aplicación de software que utiliza un motor de inteligencia artificial para reconocer un documento de imagen/PDF. También proporciona varios ajustes para mejorar el rendimiento del proceso de OCR. Además, ofrece la opción de seleccionar varios idiomas. ABBYY FineReader PDF tiene algunas limitaciones en el uso de las conversiones de página. Hay diferentes precios para los distintos sistemas operativos. Para conocer más sobre los detalles de precios de ABBYY FineReader PDF, haga clic [aquí](https://pdf.abbyy.com/pricing/" target="_blank" rel="nofollow).

IronOCR es mejor que ABBYY FineReader PDF. La comparación demostró que algunas de las imágenes de baja calidad no eran reconocidas por FineReader, mientras que tampoco reconocía algunos de los caracteres de la imagen, y los reportaba como desconocidos. En cambio, IronOCR muestra resultados completos y precisos. También permite reconocer datos de códigos de barras y leer sus valores a partir de imágenes. El paquete IronOCR proporciona una licencia de por vida, y no hay costes corrientes. El paquete IronOCR admite múltiples plataformas a un solo precio. Para conocer más acerca de los detalles de precios de IronOCR, haga clic [aquí](/csharp/ocr/licensing/" target="_blank).

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
Comparación entre IronOCR y Dynamsoft OCR

SIGUIENTE >
Comparación entre IronOCR y Leadtools OCR