COMPARACIóN CON OTROS COMPONENTES

Comparación entre IronOCR y Syncfusion OCR

Actualizado 14 de noviembre, 2022
Compartir:

En este artículo se comparan dos bibliotecas de software que utilizan el reconocimiento óptico de caracteres (OCR) para automatizar la detección y extracción de texto impreso o manuscrito a partir de imágenes y de documentos escaneados. En primer lugar, hablaremos de las características de ambas bibliotecas. A continuación, examinaremos y compararemos sus capacidades de reconocimiento y extracción de texto utilizando código fuente de ejemplo producido con ambas bibliotecas. Por último, compararemos las licencias y los precios de las bibliotecas.

Las bibliotecas que compararemos en este artículo son:

  • IronOCR
  • Syncfusion Essential PDF

1. Syncfusion OCR

La biblioteca Essential PDF de Syncfusion incorpora funciones de reconocimiento óptico de caracteres para permitir el procesamiento de texto en imágenes escaneadas dentro de documentos PDF.

El procesador OCR de Syncfusion puede trabajar con las versiones 3 y 4 de Tesseract. (3.02 y 3.05) y 4. La biblioteca puede incluirse en aplicaciones .NET Core y ASP.NET.

Entre las características de la funcionalidad OCR de SyncFusion Essential PDF se incluyen:

  • **Realizar tareas de OCR en documentos PDF. Procesador OCR se puede utilizar para realizar OCR en archivos PDF. Se basa en el procesador de datos Tesseract, conocido por ser uno de los mejores procesadores OCR del mundo.
  • **Los usuarios pueden realizar tareas de reconocimiento óptico de caracteres en páginas o áreas específicas de un documento PDF.
  • **Los usuarios pueden extraer datos textuales de imágenes para importarlos a otras aplicaciones.
  • **El motor Google Tesseract (Syncfusion por extensión) soporta actualmente más de 60 idiomas y está experimentando con muchos más.
  • **Aprovechando el motor de código abierto Tesseract de Google, Syncfusion Essential PDF consigue una precisión de texto muy buena, realizando el OCR en un tiempo decente.

2. IronOCR

IronOCR es una biblioteca de software C# que permite a los desarrolladores de plataformas .NET reconocer y leer texto de imágenes y documentos PDF. Se trata de una biblioteca OCR exclusiva de .NET que utiliza el potente motor Tesseract. Las versiones 3 a 5 de Tesseract funcionan de forma inmediata en Windows, macOS, Linux, Azure, AWS, Lambda, Mono y Xamarin Mac.

IronOCR cubre más idiomas que todos los motores de OCR disponibles, ya que admite 125 idiomas, (por defecto sólo está instalado el inglés).

Los desarrolladores .NET tienen pleno control sobre sus documentos, pudiendo modificarlos como consideren oportuno.

2.1. Características de IronOCR

IronOCR ofrece una combinación única de capacidades y funciones para integrar, firmar, exportar, leer visuales y extraer detalles de las fotos, independientemente de los conocimientos técnicos del usuario o de la sofisticación del hardware.

2.1.1. Precisión

El SDK IronOCR supera a otras bibliotecas de OCR en términos de precisión, con una tasa del 99,8 por ciento.

2.1.2. Corrección de escaneos e imágenes de baja calidad

La clase IronOCR proporciona un amplio control a los desarrolladores de C#. Dan a sus desarrolladores OCR (imágenes y PDF a texto) funcionalidad y un rendimiento ajustado en cada caso concreto.

IronOCR incluye opciones de configuración que permiten a la biblioteca procesar imágenes que no tengan la calidad ideal. Algunas de estas configuraciones disponibles son: Limpiar ruido de fondo, Mejorar contraste, Mejorar resolución, Idioma, Estrategia, Girar y enderezar, Espacio de color, Detectar texto blanco en fondos oscuros y Tipo de imagen de entrada.

2.1.3. Idiomas

IronOCR es compatible con más de 125 idiomas internacionales.

2.1.4. Extracción de texto OCR

Iron Tesseract puede leer varios formatos de imagen, así como archivos PDF. Esta función no está disponible con los motores Tesseract estándar y gratuitos. Si sus escaneados son de mala calidad, la entrada OCR le permite corregir automáticamente los atributos necesarios.

2.1.5. Filtros de optimización de imágenes

La clase OCRInput proporciona a los programadores de C# un control detallado de la entrada. Posteriormente, los desarrolladores preprocesan la entrada de imágenes para aumentar la velocidad y la precisión. Esto elimina la necesidad de utilizar secuencias de comandos por lotes de Photoshop o ImageMagick para preparar las fotografías antes del procesamiento de OCR.

2.1.6. Región OCR de una imagen

IronOCR permite a sus usuarios finales realizar OCR en áreas específicas de una imagen.

2.1.7. Clase OCRResult

IronOCR devuelve un objeto de resultado avanzado por cada página que escanea utilizando Tesseract 3,4 ó 5. Contiene datos de ubicación, imágenes, texto, confianza estadística, opciones de símbolos alternativos, nombres de fuentes, decoración de tamaños de fuentes, pesos de fuentes y una posición para cada uno de los siguientes elementos:

  • Páginas
  • Párrafos
  • Líneas de texto
  • Palabras
  • Personajes individuales
  • Códigos de barras

2.1.8. Varios idiomas en un documento

IronOCR permite a los desarrolladores utilizar varios idiomas en un mismo documento. Esta capacidad es extremadamente beneficiosa para los proveedores de servicios .NET.

3. Inicio de un nuevo proyecto en Visual Studio

En este artículo, utilizaremos una nueva aplicación de consola de Visual Studio para demostrar las capacidades de procesamiento OCR de IronOCR y Syncfusion Essential PDF.

Abra el software Visual Studio, vaya al menú Archivo y seleccione Nuevo proyecto. A continuación, seleccione Aplicación de consola.

Introduzca el nombre del proyecto y seleccione la ruta en el cuadro de texto correspondiente. A continuación, haga clic en el botón Crear y seleccione el marco .NET necesario, como se muestra en la siguiente captura de pantalla:

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 1

El proyecto de Visual Studio generará ahora la estructura de la nueva aplicación de consola. El archivo program.cs se abrirá al finalizar.

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 2

Ahora añadiremos ambas bibliotecas al proyecto.

4. Instalar la biblioteca IronOCR

La biblioteca IronOCR puede descargarse e instalarse de cuatro maneras. Estos son:

  1. Uso del gestor de paquetes NuGet de Visual Studio
  2. Descarga directa desde la página web de NuGet.
  3. Descarga directa desde la página web de IronOCR.
  4. Uso de la línea de comandos de Visual Studio.

4.1. Uso del gestor NuGet de Visual Studio

Puede integrar IronOCR en un proyecto C# utilizando el gestor de paquetes NuGet de Visual Studio.

Acceda a la GUI del Gestor de Paquetes NuGet haciendo clic en Herramientas > Gestor de Paquetes NuGet > Gestionar Paquetes NuGet para Soluciones....

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 3

A continuación, aparecerá una nueva ventana. Busque IronOCR e instale el paquete en el proyecto.

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 4

También pueden instalarse paquetes de idiomas adicionales para IronOCR utilizando el mismo método descrito anteriormente.

4.2. Descarga directa desde la página web de NuGet

IronOCR puede descargarse directamente del sitio web de NuGet siguiendo estas instrucciones:

  1. Navegue hasta el Página de la Galería NuGet de IronPDF
  2. Seleccione la opción de descarga de paquetes en el menú de la derecha.
  3. Haga doble clic en el paquete descargado. Se instalará automáticamente.

4.3. Descarga directa desde la página web de IronOCR

Los promotores pueden descargar la biblioteca del sitio web de IronOCR y añádela como referencia del proyecto.

Siga las instrucciones siguientes para añadir la biblioteca como referencia en Visual Studio.

  1. Haga clic con el botón derecho del ratón en el proyecto de la ventana de la solución.
  2. A continuación, seleccione Añadir referencia de proyecto y busque la ubicación de la referencia descargada.
  3. A continuación, haga clic en Aceptar para añadir la referencia.

4.4. Uso de la línea de comandos de Visual Studio

  1. En Visual Studio, ve a Herramientas > Gestor de paquetes NuGet > Consola del gestor de paquetes.
  2. Introduzca la siguiente línea en la pestaña de la consola del gestor de paquetes:
  3. Instalar el paquete IronOCR
    Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 5

    El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

    Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 6

5. Instale la biblioteca Syncfusion Essential PDF OCR Library

Syncfsion Essential PDF puede instalarse de tres formas distintas.

  1. Uso del gestor de paquetes NuGet de Visual Studio
  2. Descarga directa desde la página web de NuGet.
  3. Uso de la línea de comandos de Visual Studio.

5.1. Uso del gestor NuGet de Visual Studio

Al igual que con IronOCR, los desarrolladores también pueden instalar la biblioteca OCR de SyncFusion mediante el gestor de paquetes NuGet de Visual Studio.

Acceda al Gestor de paquetes como antes haciendo clic en Herramientas > Gestor de paquetes NuGet > Gestionar paquetes NuGet para soluciones....

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 7

Busque SyncFusion OCR e instale el paquete adecuado (debe ser Syncfusion.PDF.OCR.Net.Core)

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 8

Puede descargar más paquetes de idiomas para SyncFusion Essential PDF OCR en GitHub.

5.2. Descarga directa desde la página web de NuGet

Syncfusion Essential PDF OCR puede descargarse directamente del sitio web de NuGet siguiendo estas instrucciones:

  1. Vaya a la sección Página de la Galería NuGet.
  2. Seleccione la opción de descarga de paquetes en el menú de la derecha.
  3. Haga doble clic en el paquete descargado. Se instalará automáticamente.
  4. A continuación, vuelva a cargar la solución y comience a utilizarla en el proyecto.

5.3. Uso de la línea de comandos de Visual Studio

  1. En Visual Studio, vaya a Herramientas > Gestor de paquetes NuGet > Consola del gestor de paquetes.
  2. Introduzca la siguiente línea en la pestaña de la consola del gestor de paquetes:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 9

El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

6. Realizar OCR en documento PDF

Tanto IronOCR como Syncfusion OCR son capaces de realizar OCR en documentos PDF. Aquí, vamos a discutir cómo ambos pueden ser utilizados en Visual Studio.

6.1. Extracción de texto PDF OCR con IronOCR

Con sólo unas pocas líneas de código, los desarrolladores pueden realizar OCR en un PDF completo o en páginas/porciones específicas de un PDF. Considere el siguiente fragmento de código.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

6.2. Extracción de texto PDF OCR utilizando Syncfusion Essential PDF OCR.

Puede utilizar la clase OCRProcessor para realizar OCR en documentos PDF, así como en regiones de un documento. Examine el ejemplo de código siguiente para conocer el contexto.

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//inicializar el procesador ocr
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//inicializar el procesador ocr
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

7. Realizar OCR en imágenes

Ambas bibliotecas pueden realizar OCR en imágenes dentro de una aplicación C#.NET y .NET Core.

7.1. Realizar OCR en imágenes usando IronOCR

IronOCR es único en su capacidad para detectar y leer automáticamente texto de imágenes escaneadas imperfectas con sólo dos líneas de código.

using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
VB   C#

Entrada OCR Imagen

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 10

OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode

7.2. Realización de OCR en imágenes con el procesador Syncfusion Essential PDF OCR

Syncfusion Essential PDF es capaz de extraer texto de imágenes con gran precisión.

using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//cargar la imagen de entrada
Bitmap image = new Bitmap("11111.jpeg");
//Establecer idioma OCR para procesar
processor.Settings.Language = Languages.English;
//Procesar OCR proporcionando la imagen de mapa de bits, el diccionario de datos y el idioma
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//cargar la imagen de entrada
Bitmap image = new Bitmap("11111.jpeg");
//Establecer idioma OCR para procesar
processor.Settings.Language = Languages.English;
//Procesar OCR proporcionando la imagen de mapa de bits, el diccionario de datos y el idioma
string ocrText= processor.PerformOCR(image, @"TessData\");
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

Imagen de entrada OCR

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 11

Consola

Formulario OCR SALIDA IMAGEN

Salida OCR

Salida de datos simple:

  • NET Cadenas de texto

    Dee eT Nd

    tC eke ass

    Biren)

    Soja

    Seg

    ors

    eae

    eed

    TLC

    eres

    Smt d

    Ver amr'

    etd ieot

8. Licencias

El uso tanto de IronOCR como de Syncfusion Essential PDF requiere licencias de software.

8.1. Licencia IronOCR

IronOCR dispone de una licencia de desarrollo gratuita para proyectos personales no comerciales.

IronOCR ofrece una estructura de precios distinta para las licencias comerciales. El paquete Lite comienza en $599 sin costes adicionales. Todas las licencias incluyen una garantía de devolución del dinero de 30 días, un año de soporte de software y actualizaciones, desarrollo, pruebas, puesta en escena, validez de producción y una licencia perpetua. (compra única). Obtenga más información sobre la estructura completa de precios y licencias de IronOCR en esta página.

Por una cuota única de 1599 dólares, puede obtener la redistribución libre de derechos de autor de los productos SaaS y OEM.

Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 12

8.2. Licencia de Syncfusion Essential PDF

Syncfusion Essential PDF ofrece tres tipos de licencias para desarrolladores, pero no proporciona cobertura SaaS ni OEM.

  • **La licencia comunitaria es gratuita para desarrolladores y pequeñas empresas de hasta 5 desarrolladores. También incluye asistencia en directo.
  • **La licencia minorista es una licencia anual que debe adquirirse por separado para cada desarrollador de una organización. Las licencias al por menor cuestan a partir de 995 dólares al año por desarrollador.
  • **Esta opción proporciona licencias para toda una organización sobre la misma base anual, pero por un precio inferior.

    Ver toda la estructura de licencias de Syncfusion Essential PDF (y para otros componentes de Syncfusion) en el página de licencias de productos.

    Comparación entre IronOCR y SyncFusion Essential PDF OCR, Figura 13

9. Conclusión

En total, IronOCR es compatible con unos 125 idiomas de todo el mundo. Sus capacidades de procesamiento incluyen: la capacidad de realizar OCR en partes de un documento PDF o una imagen, la capacidad de extraer texto de PDF y fotos, y la capacidad de corregir una imagen de mala calidad, entre muchas otras. IronOCR da prioridad a la velocidad y la precisión. Su índice de precisión del 99,8 por ciento es superior al de cualquier otra biblioteca de OCR del mercado basada en Tesseract. IronOCR funciona nada más sacarlo de la caja, sin necesidad de ajustar el rendimiento ni preprocesar las imágenes.

Syncfusion Essential PDF OCR también utiliza el motor tesseract de código abierto de Google. Puede realizar OCR en documentos completos o en partes específicas de documentos. La biblioteca de OCR de Syncfusion admite más de 60 idiomas internacionales.

Las licencias de IronOCR tienen validez de por vida con soporte ilimitado y cobertura SaaS y OEM. Por otro lado, Syncfusion Essential PDF OCR ofrece licencias anuales. Los precios de IronOCR comienzan a partir de $599, y los de Syncfusion a partir de 995 dólares anuales.

Obtenga IronOCR junto con otros cuatro productos de Iron Software a un precio con descuento comprando la versión completa de IronSuite. Entre los productos incluidos en IronSuite se encuentran:

  1. IronPDF
  2. IronOCR
  3. IronXL
  4. Código de barras de hierro
  5. IronWebscraper

    El software Iron página de licencias contiene información más detallada sobre precios y licencias de los cinco productos mencionados.

< ANTERIOR
Comparación entre IronOCR y Aspose.OCR
SIGUIENTE >
Comparación entre IronOCR y AWS Textract OCR

¿Listo para empezar? Versión: 2024.7 recién publicada

Descarga gratuita de NuGet Descargas totales: 2,012,139 Ver licencias >
123