COMPARACIóN CON OTROS COMPONENTES

Comparación entre IronOCR y Syncfusion OCR

Kannaopat Udonpant
Kannapat Udonpant
14 de noviembre, 2022
Compartir:

Este artículo comparará dos bibliotecas de software que utilizan reconocimiento óptico de caracteres (OCR) para automatizar la detección y extracción de texto impreso de imágenes y de documentos escaneados. En primer lugar, hablaremos de las características de ambas bibliotecas. A continuación, examinaremos y compararemos sus capacidades de reconocimiento y extracción de texto utilizando código fuente de ejemplo producido con ambas bibliotecas. Por último, compararemos las licencias y los precios de las bibliotecas.

Las bibliotecas que compararemos en este artículo son:

  • IronOCR
  • Syncfusion Essential PDF

1. Syncfusion OCR

La biblioteca Essential PDF de Syncfusion incorpora funciones de reconocimiento óptico de caracteres para permitir el procesamiento de texto en imágenes escaneadas dentro de documentos PDF.

El procesador OCR de Syncfusion puede trabajar con las versiones de Tesseract 3 (3.02 y 3.05) y 4. La biblioteca se puede incluir en aplicaciones .NET Core y ASP.NET.

Las características de la funcionalidad OCR de SyncFusion Essential PDF incluyen:

  • Realizar tareas de OCR en documentos PDF. La clase OCRProcessor de la biblioteca puede usarse para realizar OCR en archivos PDF. Se basa en el procesador de datos Tesseract, conocido por ser uno de los mejores procesadores OCR del mundo.
  • Realizar tareas de OCR en partes de documentos PDF. Los usuarios pueden aplicar OCR a páginas o áreas específicas de un documento PDF.
  • Realizar tareas de OCR en imágenes. Los usuarios pueden extraer datos textuales de las imágenes para importarlos a otras aplicaciones.
  • Soporte multilingüe. El motor Google Tesseract (Syncfusion por extensión) actualmente soporta más de 60 idiomas y está experimentando con muchos más.
  • Buena precisión. Al aprovechar el motor de código abierto Tesseract de Google, Syncfusion Essential PDF logra una muy buena precisión de texto, realizando OCR en un tiempo razonable.

2. IronOCR

IronOCR es una biblioteca de software C# que permite a los desarrolladores de plataformas .NET reconocer y leer texto de imágenes y documentos PDF. Se trata de una biblioteca OCR exclusiva de .NET que utiliza el potente motor Tesseract. Las versiones 3 a 5 de Tesseract funcionan de forma inmediata en Windows, macOS, Linux, Azure, AWS, Lambda, Mono y Xamarin Mac.

IronOCR cubre más idiomas que cualquier motor OCR disponible, al admitir 125 idiomas (solo el inglés está instalado por defecto).

Los desarrolladores .NET tienen pleno control sobre sus documentos, pudiendo modificarlos como consideren oportuno.

2.1. Características de IronOCR

IronOCR ofrece una combinación única de capacidades y funciones para integrar, firmar, exportar, leer visuales y extraer detalles de las fotos, independientemente de los conocimientos técnicos del usuario o de la sofisticación del hardware.

2.1.1. Precisión

El SDK IronOCR supera a otras bibliotecas de OCR en términos de precisión, con una tasa del 99,8 por ciento.

2.1.2. Corrección de escaneos e imágenes de baja calidad

La clase IronOCR proporciona un amplio control a los desarrolladores de C#. Ofrecen a sus desarrolladores funcionalidad de OCR (imágenes y PDF a texto) y rendimiento ajustado en cada instancia específica.

IronOCR incluye opciones de configuración que permiten a la biblioteca procesar imágenes que no tengan la calidad ideal. Algunas de estas configuraciones disponibles son: Limpiar ruido de fondo, Mejorar contraste, Mejorar resolución, Idioma, Estrategia, Girar y enderezar, Espacio de color, Detectar texto blanco en fondos oscuros y Tipo de imagen de entrada.

2.1.3. Idiomas

IronOCR es compatible con más de 125 idiomas internacionales.

2.1.4. Extracción de texto OCR

Iron Tesseract puede leer varios formatos de imagen, así como archivos PDF. Esta función no está disponible con los motores Tesseract estándar y gratuitos. Si sus escaneados son de mala calidad, la entrada OCR le permite corregir automáticamente los atributos necesarios.

2.1.5. Filtros de optimización de imágenes

La clase OCRInput proporciona a los programadores de C# un control detallado de la entrada. Posteriormente, los desarrolladores preprocesan la entrada de imágenes para aumentar la velocidad y la precisión. Esto elimina la necesidad de utilizar secuencias de comandos por lotes de Photoshop o ImageMagick para preparar las fotografías antes del procesamiento de OCR.

2.1.6. Región OCR de una imagen

IronOCR permite a sus usuarios finales realizar OCR en áreas específicas de una imagen.

2.1.7. Clase OCRResult

IronOCR devuelve un objeto de resultado avanzado por cada página que escanea utilizando Tesseract 3,4 ó 5. Contiene datos de ubicación, imágenes, texto, confianza estadística, opciones de símbolos alternativos, nombres de fuentes, decoración de tamaños de fuentes, pesos de fuentes y una posición para cada uno de los siguientes elementos:

  • Páginas
  • Párrafos
  • Líneas de texto
  • Palabras
  • Personajes individuales
  • Códigos de barras

2.1.8. Varios idiomas en un documento

IronOCR permite a los desarrolladores utilizar varios idiomas en un mismo documento. Esta capacidad es extremadamente beneficiosa para los proveedores de servicios .NET.

3. Inicio de un nuevo proyecto en Visual Studio

En este artículo, utilizaremos una nueva aplicación de consola de Visual Studio para demostrar las capacidades de procesamiento OCR de IronOCR y Syncfusion Essential PDF.

Abra el software de Visual Studio, vaya al menú de archivo y seleccione Nuevo Proyecto. Luego, seleccione Aplicación de Consola.

Introduzca el nombre del proyecto y seleccione la ruta en el cuadro de texto correspondiente. A continuación, haga clic en el botón Crear y seleccione el .NET Framework necesario, como se muestra en la siguiente captura de pantalla:

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 1

El proyecto de Visual Studio generará ahora la estructura de la nueva aplicación de consola. El archivo program.cs se abrirá al finalizar.

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 2

Ahora añadiremos ambas bibliotecas al proyecto.

4. Instalar la biblioteca IronOCR

La biblioteca IronOCR puede descargarse e instalarse de cuatro maneras. Estos son:

  1. Uso del gestor de paquetes NuGet de Visual Studio

  2. Descarga directa desde la página web de NuGet.

  3. Descarga directa desde la página web de IronOCR.

  4. Uso de la línea de comandos de Visual Studio.

4.1. Uso del gestor NuGet de Visual Studio

Puede integrar IronOCR en un proyecto C# utilizando el gestor de paquetes NuGet de Visual Studio.

Acceda a la interfaz gráfica del Administrador de Paquetes NuGet haciendo clic en Herramientas > Administrador de Paquetes NuGet > Administrar Paquetes NuGet para Soluciones...

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 3

A continuación, aparecerá una nueva ventana. Busque IronOCR e instale el paquete en el proyecto.

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 4

También pueden instalarse paquetes de idiomas adicionales para IronOCR utilizando el mismo método descrito anteriormente.

4.2. Descarga directa desde la página web de NuGet

IronOCR puede descargarse directamente del sitio web de NuGet siguiendo estas instrucciones:

  1. Navegue a la [página IronPDF NuGet Gallery](https://www.nuget.org/packages/IronOCR/" target="_blank" rel="nofollow noopener noreferrer)

  2. Seleccione la opción de descarga de paquetes en el menú de la derecha.

  3. Haga doble clic en el paquete descargado. Se instalará automáticamente.

4.3. Descarga directa desde la página web de IronOCR

Los desarrolladores pueden descargar la biblioteca desde el sitio web de IronOCR y añadirla como referencia en el proyecto.

Siga las instrucciones siguientes para añadir la biblioteca como referencia en Visual Studio.

  1. Haga clic con el botón derecho del ratón en el proyecto de la ventana de la solución.

  2. A continuación, seleccione Añadir referencia de proyecto y busque la ubicación de la referencia descargada.

  3. A continuación, haga clic en Aceptar para añadir la referencia.

4.4. Uso de la línea de comandos de Visual Studio

  1. En Visual Studio, vaya a Herramientas > Administrador de paquetes NuGet > Consola del administrador de paquetes

  2. Introduzca la siguiente línea en la pestaña de la consola del gestor de paquetes:

  3. Install-Package IronOCR
    Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 5

    El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

    Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 6

5. Instale la biblioteca Syncfusion Essential PDF OCR Library

Syncfsion Essential PDF puede instalarse de tres formas distintas.

  1. Uso del gestor de paquetes NuGet de Visual Studio

  2. Descarga directa desde la página web de NuGet.

  3. Uso de la línea de comandos de Visual Studio.

5.1. Uso del gestor NuGet de Visual Studio

Al igual que con IronOCR, los desarrolladores también pueden instalar la biblioteca OCR de SyncFusion mediante el gestor de paquetes NuGet de Visual Studio.

Accede al Administrador de Paquetes como antes haciendo clic en Herramientas > Administrador de Paquetes NuGet > Administrar Paquetes NuGet para soluciones...

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 7

Busque SyncFusion OCR e instale el paquete apropiado (debería ser Syncfusion.PDF.OCR.Net.Core)

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 8

Los paquetes de idiomas adicionales para SyncFusion Essential PDF OCR se pueden descargar desde [GitHub](https://github.com/tesseract-ocr/tessdata" target="_blank" rel="nofollow noopener noreferrer).

5.2. Descarga directa desde la página web de NuGet

Syncfusion Essential PDF OCR puede descargarse directamente del sitio web de NuGet siguiendo estas instrucciones:

  1. Navegue a la [página de la Galería de NuGet](https://www.nuget.org/packages/Syncfusion.PDF.OCR.Net.Core" target="_blank" rel="nofollow noopener noreferrer) del paquete.

  2. Seleccione la opción de descarga de paquetes en el menú de la derecha.

  3. Haga doble clic en el paquete descargado. Se instalará automáticamente.

  4. A continuación, vuelva a cargar la solución y comience a utilizarla en el proyecto.

5.3. Uso de la línea de comandos de Visual Studio

  1. En Visual Studio, vaya a Herramientas > Administrador de paquetes NuGet > Consola del administrador de paquetes

  2. Introduzca la siguiente línea en la pestaña de la consola del gestor de paquetes:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 9

El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

6. Realizar OCR en documento PDF

Tanto IronOCR como Syncfusion OCR son capaces de realizar OCR en documentos PDF. Aquí, vamos a discutir cómo ambos pueden ser utilizados en Visual Studio.

6.1. Extracción de texto PDF OCR con IronOCR

Con sólo unas pocas líneas de código, los desarrolladores pueden realizar OCR en un PDF completo o en páginas/porciones específicas de un PDF. Considere el siguiente fragmento de código.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

6.2. Extracción de texto PDF OCR utilizando Syncfusion Essential PDF OCR.

Puede utilizar la clase OCRProcessor para realizar OCR en documentos PDF, así como en regiones de un documento. Examine el ejemplo de código siguiente para conocer el contexto.

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
$vbLabelText   $csharpLabel

7. Realizar OCR en imágenes

Ambas bibliotecas pueden realizar OCR en imágenes dentro de una aplicación C#.NET y .NET Core.

7.1. Realizar OCR en imágenes usando IronOCR

IronOCR es único en su capacidad para detectar y leer automáticamente texto de imágenes escaneadas imperfectas con sólo dos líneas de código.

using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
$vbLabelText   $csharpLabel

Entrada OCR Imagen

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 10

OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode

7.2. Realización de OCR en imágenes con el procesador Syncfusion Essential PDF OCR

Syncfusion Essential PDF es capaz de extraer texto de imágenes con gran precisión.

using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
	Using Syncfusion.Pdf.Parsing
	'loading the input image
	Dim image As New Bitmap("11111.jpeg")
	'Set OCR language to process
	processor.Settings.Language = Languages.English
	'Process OCR by providing the bitmap image, data dictionary and language
	Dim ocrText As String= processor.PerformOCR(image, "TessData\")
	End Using
End Using
$vbLabelText   $csharpLabel

Imagen de entrada OCR

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 11

` consola

Formulario OCR SALIDA IMAGEN

Salida OCR

Salida de datos simple:

  • NET Cadenas de texto

    Dee eT Nd

    tC eke ass

    Biren)

    Soja

    Seg

    ors

    eae

    eed

    TLC

    eres

    Smt d

    Ver amr'

    etd ieot

8. Licencias

El uso tanto de IronOCR como de Syncfusion Essential PDF requiere licencias de software.

8.1. Licencia IronOCR

IronOCR dispone de una licencia de desarrollo gratuita para proyectos personales no comerciales.

IronOCR ofrece una estructura de precios distinta para las licencias comerciales. El paquete Lite comienza en $749 sin costes adicionales. Todas las licencias incluyen una garantía de devolución de dinero de 30 días, un año de soporte y actualizaciones de software, validez de desarrollo, prueba, preparación y producción, y una licencia perpetua (compra única). Obtén más información sobre la estructura completa de precios y la información de licencias de IronOCR en esta página.

Por una cuota única de 1599 dólares, puede obtener la redistribución libre de derechos de autor de los productos SaaS y OEM.

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 12

8.2. Licencia de Syncfusion Essential PDF

Syncfusion Essential PDF ofrece tres tipos de licencias para desarrolladores, pero no proporciona cobertura SaaS ni OEM.

  • Licencia Comunitaria. La licencia comunitaria es gratuita para desarrolladores y pequeñas empresas de hasta 5 desarrolladores. También incluye asistencia en directo.
  • Licencia Minorista. La licencia minorista es una licencia anual que debe comprarse por separado para cada desarrollador en una organización. Las licencias al por menor cuestan a partir de 995 dólares al año por desarrollador.
  • Unlimited License. Esta opción proporciona licencias para toda una organización en un mismo periodo anual, pero a un precio más bajo.

    Vea la estructura completa de licencias para Syncfusion Essential PDF (y para otros componentes de Syncfusion) en la [página de licencias del producto](https://www.syncfusion.com/sales/products" target="_blank" rel="nofollow noopener noreferrer).

    Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 13

9. Conclusión

En total, IronOCR es compatible con unos 125 idiomas de todo el mundo. Sus capacidades de procesamiento incluyen: la capacidad de realizar OCR en partes de un documento PDF o una imagen, la capacidad de extraer texto de PDF y fotos, y la capacidad de corregir una imagen de mala calidad, entre muchas otras. IronOCR da prioridad a la velocidad y la precisión. Su índice de precisión del 99,8 por ciento es superior al de cualquier otra biblioteca de OCR del mercado basada en Tesseract. IronOCR funciona nada más sacarlo de la caja, sin necesidad de ajustar el rendimiento ni preprocesar las imágenes.

Syncfusion Essential PDF OCR también utiliza el motor tesseract de código abierto de Google. Puede realizar OCR en documentos completos o en partes específicas de documentos. La biblioteca de OCR de Syncfusion admite más de 60 idiomas internacionales.

Las licencias de IronOCR tienen validez de por vida con soporte ilimitado y cobertura SaaS y OEM. Por otro lado, Syncfusion Essential PDF OCR ofrece licencias anuales. El precio de IronOCR comienza desde $749, y el precio de Syncfusion comienza desde $995 por año.

Obtén IronOCR junto con otros cuatro productos de Iron Software a un precio reducido comprando el Iron Suite completo. Los productos incluidos en el Iron Suite incluyen:

  1. IronPDF

  2. IronOCR

  3. IronXL

  4. IronBarcode

  5. IronWebscraper

    La página de licencias de Iron Software contiene información más detallada sobre precios y licencias para los cinco productos mencionados anteriormente.

Kannaopat Udonpant
Ingeniero de software
Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.
< ANTERIOR
Comparación entre IronOCR y Aspose.OCR
SIGUIENTE >
Comparación entre IronOCR y AWS Textract OCR