Saltar al pie de página
COMPARAR CON OTROS COMPONENTES

Una comparación entre IronOCR y Syncfusion OCR

Este artículo comparará dos bibliotecas de software que utilizan reconocimiento óptico de caracteres (OCR) para automatizar la detección y extracción de texto impreso de imágenes y de documentos escaneados. Primero, discutiremos las características de ambas bibliotecas. A continuación, examinaremos y compararemos sus capacidades de reconocimiento y extracción de texto usando código fuente de ejemplo producido utilizando ambas bibliotecas. Finalmente, compararemos el licenciamiento y precios de las bibliotecas.

Las bibliotecas que compararemos en este artículo son:

  • IronOCR
  • Syncfusion Essential PDF

1. OCR de Syncfusion

La biblioteca Essential PDF de Syncfusion incorpora funcionalidad OCR para habilitar el procesamiento de texto en imágenes escaneadas dentro de documentos PDF.

El procesador OCR de Syncfusion puede trabajar con las versiones 3 (3.02 y 3.05) y 4 de Tesseract. La biblioteca se puede incluir en aplicaciones .NET Core y ASP.NET.

Las características de la funcionalidad OCR de SyncFusion Essential PDF incluyen:

  • Realizar tareas de OCR en documentos PDF. La clase OCRProcessor de la biblioteca se puede usar para realizar OCR en archivos PDF. Se basa en el procesador de datos Tesseract, conocido por ser uno de los mejores procesadores OCR del mundo.
  • Realizar tareas de OCR en partes de documentos PDF. Los usuarios pueden realizar OCR en páginas o áreas específicas de un documento PDF.
  • Realizar tareas de OCR en imágenes. Los usuarios pueden extraer datos textuales de imágenes para importar en otras aplicaciones.
  • Soporte multilingüe. El motor de Google Tesseract (por extensión Syncfusion) actualmente soporta más de 60 idiomas y está experimentando con muchos más.
  • Buena precisión. Al aprovechar el motor de código abierto de Google Tesseract, Syncfusion Essential PDF logra una precisión de texto muy buena, realizando OCR en un tiempo razonable.

2. IronOCR

IronOCR es una biblioteca de software en C# que permite a los desarrolladores de la plataforma .NET reconocer y leer texto a partir de imágenes y documentos PDF. Es una biblioteca OCR exclusivamente para .NET que utiliza el potente motor Tesseract. Las versiones de Tesseract 3 - 5 funcionan directamente en Windows, macOS, Linux, Azure, AWS, Lambda, Mono y Xamarin Mac.

IronOCR abarca más idiomas que cualquier otro motor OCR disponible, soportando 125 idiomas (solo el inglés está instalado por defecto).

Los desarrolladores .NET tienen control total sobre sus documentos, pudiendo modificarlos como consideren adecuado.

2.1. Características de IronOCR

IronOCR ofrece una combinación única de capacidades y funciones para integrar, firmar, exportar, leer visuales y extraer detalles de fotos, independiente del conocimiento técnico del usuario o la sofisticación del hardware.

2.1.1. Precisión

El SDK de IronOCR supera a otras bibliotecas OCR en términos de precisión, con una tasa de 99.8 por ciento.

2.1.2. Reparación de escaneos e imágenes de baja calidad

La clase IronOCR proporciona un control extenso a los desarrolladores de C#. Proporciona a los desarrolladores funcionalidad OCR (imágenes y PDF a texto) y un rendimiento ajustado en cada caso específico.

IronOCR incluye opciones de configuración que permiten a la biblioteca procesar imágenes que no son de calidad ideal. Algunas de estas configuraciones incluyen: Limpiar ruido de fondo, Mejorar contraste, Mejorar resolución, Idioma, Estrategia, Rotar y enderezar, Espacio de color, Detectar texto en blanco sobre fondos oscuros, y Tipo de imagen de entrada.

2.1.3. Idiomas

IronOCR soporta más de 125 idiomas internacionales.

2.1.4. Extracción de texto mediante OCR

Iron Tesseract puede leer varios formatos de imagen así como archivos PDF. Esta funcionalidad no está disponible con los motores Tesseract gratuitos estándar. Si tus escaneos son de mala calidad, la entrada OCR te permite corregir automáticamente los atributos requeridos.

2.1.5. Filtros de optimización de imágenes

La clase OCRInput proporciona a los programadores de C# un control detallado sobre la entrada. La entrada de imagen es posteriormente preprocesada por desarrolladores para mejorar la velocidad y precisión. Esto elimina la necesidad de usar Scripts de Lote de Photoshop o ImageMagick para preparar fotografías antes del procesamiento OCR.

2.1.6. Región OCR de una imagen

IronOCR permite a sus usuarios finales realizar OCR en áreas específicas de una imagen.

2.1.7. Clase OCRResult

IronOCR devuelve un objeto de resultado avanzado para cada página que escanea utilizando Tesseract 3, 4 o 5. Esto contiene datos de ubicación, imágenes, texto, confianza estadística, opciones de símbolos alternativas, nombres de fuentes, tamaños de fuentes, decoración, pesos de fuente y una posición para cada uno de los siguientes:

  • Páginas
  • Párrafos
  • Líneas de Texto
  • Palabras
  • Caracteres Individuales
  • Códigos de barras

2.1.8. Varios idiomas en un documento

IronOCR permite a los desarrolladores utilizar múltiples idiomas en un solo documento. Esta capacidad es extremadamente beneficiosa para los proveedores de servicios .NET.

3. Iniciar un nuevo proyecto en Visual Studio

En este artículo, utilizaremos una nueva Aplicación de Consola de Visual Studio para demostrar las capacidades de procesamiento OCR de IronOCR y Syncfusion Essential PDF.

Abre el software Visual Studio, ve al menú archivo y selecciona Nuevo Proyecto. Luego, selecciona Aplicación de Consola.

Introduce el nombre del proyecto y selecciona la ruta en el cuadro de texto correspondiente. A continuación, haz clic en el botón de crear y luego selecciona el marco .NET requerido, como en la captura de pantalla a continuación:

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 1

El proyecto de Visual Studio ahora generará la estructura para la nueva aplicación de consola. El archivo program.cs se abrirá al finalizar.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 2

Ahora agregaremos ambas bibliotecas al proyecto.

4. Instalar la biblioteca IronOCR

La biblioteca IronOCR se puede descargar e instalar de cuatro maneras. Estas son:

  1. Usando el Administrador de Paquetes NuGet de Visual Studio
  2. Descarga directa desde la página web de NuGet.
  3. Descarga directa desde la página web de IronOCR.
  4. Usando la línea de comandos de Visual Studio.

4.1. Uso del Administrador NuGet de Visual Studio

Puedes integrar IronOCR en un proyecto C# utilizando el Administrador de Paquetes NuGet de Visual Studio.

Accede a la IU del Administrador de Paquetes NuGet haciendo clic en Herramientas > Administrador de Paquetes NuGet > Administrar Paquetes NuGet para Soluciones...

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 3

Después de esto, aparecerá una nueva ventana. Busca IronOCR e instala el paquete en el proyecto.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 4

Los paquetes de idiomas adicionales para IronOCR también pueden instalarse utilizando el mismo método descrito anteriormente.

4.2. Descarga directa desde la página web de NuGet

  1. Navega al enlace "https://www.nuget.org/packages/IronOcr/".

  2. Navigate to the IronPDF NuGet Gallery Page.
  3. Haz doble clic en el paquete de descarga.
  4. Haz doble clic en el paquete descargado. Se instalará automáticamente.

4.3. Descarga directa desde la página web de IronOCR

Los desarrolladores pueden descargar la biblioteca desde el sitio web de IronOCR y agregarla como una referencia de proyecto.

Sigue las instrucciones a continuación para agregar la biblioteca como una referencia en Visual Studio.

  1. Haz clic derecho en el proyecto en la ventana de solución.
  2. Luego, selecciona Agregar Referencia de Proyecto y busca la ubicación de la referencia descargada.

2.4. Usando la Línea de Comandos en Visual Studio

4.4. Uso de la línea de comandos de Visual Studio

  1. En Visual Studio, ve a Herramientas > Administrador de paquetes NuGet > Consola del administrador de paquetes. El paquete ahora se descargará/instalará en el proyecto actual y está listo para usar.
Install-Package IronOcr
A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 5

El paquete ahora se descargará/instalará en el proyecto actual y estará listo para usarse.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 6

5. Instale la biblioteca de OCR PDF esencial de Syncfusion

Syncfusion Essential PDF se puede instalar de tres maneras diferentes.

  1. Usando el Administrador de Paquetes NuGet de Visual Studio
  2. Descarga directa desde la página web de NuGet.
  3. Usando la línea de comandos de Visual Studio.

5.1. Uso del Administrador NuGet de Visual Studio

Como con IronOCR, los desarrolladores también pueden instalar la Biblioteca OCR de SyncFusion usando el Administrador de Paquetes NuGet de Visual Studio.

Accede al Administrador de Paquetes como antes haciendo clic en Herramientas > Administrador de Paquetes NuGet > Administrar Paquetes NuGet para Soluciones...

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 7

Busca SyncFusion OCR e instala el paquete apropiado (debería ser Syncfusion.PDF.OCR.Net.Core).

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 8

Additional language packs for SyncFusion Essential PDF OCR can be downloaded from GitHub.

5.2. Descarga directa desde la página web de NuGet

Syncfusion Essential PDF OCR se puede descargar directamente desde el sitio web de NuGet siguiendo estas instrucciones:

  1. Navigate to the package's NuGet Gallery page.
  2. Haz doble clic en el paquete de descarga.
  3. Haz doble clic en el paquete descargado. Se instalará automáticamente.

2.3. Descarga directa vía la página web de IronOCR

5.3. Uso de la línea de comandos de Visual Studio

  1. En Visual Studio, ve a Herramientas > Administrador de paquetes NuGet > Consola del administrador de paquetes. El paquete ahora se descargará/instalará en el proyecto actual y está listo para usar.
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 9

El paquete ahora se descargará/instalará en el proyecto actual y estará listo para usarse.

6. Realizar OCR en un documento PDF

Ambos IronOCR y Syncfusion OCR son capaces de realizar OCR en documentos PDF. Aquí discutiremos cómo pueden utilizarse ambos en Visual Studio.

6.1. Extracción de texto PDF OCR con IronOCR

Con solo unas pocas líneas de código, los desarrolladores pueden realizar OCR en todo un PDF o en páginas/porciones específicas de un PDF. Considera el siguiente fragmento de código.

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Add a PDF document and specify a password if needed
    Input.AddPdf("example.pdf", "password");
    // Read the textual content from the PDF
    var Result = Ocr.Read(Input);
    // Display the text in the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Add a PDF document and specify a password if needed
    Input.AddPdf("example.pdf", "password");
    // Read the textual content from the PDF
    var Result = Ocr.Read(Input);
    // Display the text in the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Add a PDF document and specify a password if needed
	Input.AddPdf("example.pdf", "password")
	' Read the textual content from the PDF
	Dim Result = Ocr.Read(Input)
	' Display the text in the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

6.2. Extracción de texto de PDF OCR con Syncfusion Essential PDF OCR

Puedes usar la clase OCRProcessor para realizar OCR en documentos PDF así como en regiones de un documento. Examina el ejemplo de código a continuación para contexto.

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input PDF document
    PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded PDF
    processor.PerformOCR(lDoc, @"TessData\");
    // Save the processed PDF
    lDoc.Save("Sample.pdf");
    // Close the document
    lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input PDF document
    PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded PDF
    processor.PerformOCR(lDoc, @"TessData\");
    // Save the processed PDF
    lDoc.Save("Sample.pdf");
    // Close the document
    lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Parsing

' Initialize the OCR processor
Using processor As New OCRProcessor("TesseractBinaries\")
	' Load the input PDF document
	Dim lDoc As New PdfLoadedDocument("Input.pdf")
	' Set the OCR language
	processor.Settings.Language = Languages.English
	' Perform OCR on the loaded PDF
	processor.PerformOCR(lDoc, "TessData\")
	' Save the processed PDF
	lDoc.Save("Sample.pdf")
	' Close the document
	lDoc.Close(True)
End Using
$vbLabelText   $csharpLabel

7. Realizar OCR en imágenes

Ambas bibliotecas pueden realizar OCR en imágenes dentro de una aplicación C#.NET y .NET Core.

7.1. Realizar OCR en imágenes con IronOCR

IronOCR es único en su capacidad para detectar y leer automáticamente texto de imágenes escaneadas imperfectamente con solo dos líneas de código.

using IronOcr;

// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;

// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr

' Perform OCR and read text from the specified image
Private Result = (New IronTesseract()).Read("images\11111.png").Text
$vbLabelText   $csharpLabel

Imagen de entrada de OCR

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 10

OCR OUTPUT from IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» Words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text Element or Barcode

7.2. Realizar OCR en imágenes con el procesador de OCR PDF Syncfusion Essential

Syncfusion Essential PDF es capaz de extraer texto de imágenes con gran precisión.

using System.Drawing;
using Syncfusion.OCRProcessor;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input image
    Bitmap image = new Bitmap("11111.jpeg");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded image
    string ocrText = processor.PerformOCR(image, @"TessData\");
}
using System.Drawing;
using Syncfusion.OCRProcessor;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input image
    Bitmap image = new Bitmap("11111.jpeg");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded image
    string ocrText = processor.PerformOCR(image, @"TessData\");
}
Imports System.Drawing
Imports Syncfusion.OCRProcessor

' Initialize the OCR processor
Using processor As New OCRProcessor("TesseractBinaries\")
	' Load the input image
	Dim image As New Bitmap("11111.jpeg")
	' Set the OCR language
	processor.Settings.Language = Languages.English
	' Perform OCR on the loaded image
	Dim ocrText As String = processor.PerformOCR(image, "TessData\")
End Using
$vbLabelText   $csharpLabel

Imagen de entrada de OCR

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 11

OCR OUTPUT from IMAGE
OCR Output
Simple Data Output:
+ NET Text Strings
Dee eT Nd
tC eke ass
Biren)
Soy
Seg
ors
eae
eed
TLC
eres
Smt d
See amr'
etd ieot

8. Licencias

El uso de ambos IronOCR y Syncfusion Essential PDF requiere licencias de software.

8.1. Licencias de IronOCR

IronOCR tiene una licencia gratuita de desarrollo para proyectos personales y no comerciales.

IronOCR ofrece una estructura de precios distinta para licencias comerciales. El paquete Lite comienza en $799 sin costos adicionales. Todas las licencias incluyen una garantía de devolución de dinero de 30 días, un año de soporte técnico y actualizaciones de software, validez para desarrollo, pruebas, puesta en escena y producción, y una licencia perpetua (compra única). Obtén más información sobre la estructura de precios completa de IronOCR y la información de licenciamiento desde esta página.

Por una tarifa única de $1,599, puedes obtener redistribución sin regalías de productos SaaS y OEM.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 12

8.2. Licencias de PDF esenciales de Syncfusion

Syncfusion Essential PDF proporciona tres tipos de licencias para desarrolladores, pero no ofrece cobertura para SaaS y OEM.

  • Licencia Comunitaria. La licencia Comunitaria es gratuita para desarrolladores y pequeñas empresas de hasta 5 desarrolladores. También incluye soporte en vivo.
  • Licencia de Venta al por Menor. La licencia de Venta al por Menor es una licencia de base anual que debe ser adquirida por separado para cada desarrollador en una organización. Las licencias de venta al por menor comienzan desde $995 por año por desarrollador.
  • Licencia Ilimitada. Esta opción proporciona licencias para toda una organización bajo la misma base anual pero a un precio más bajo.

View the entire licensing structure for Syncfusion Essential PDF (and for other Syncfusion components) on the product licensing page.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 13

9. Conclusión

IronOCR soporta aproximadamente 125 idiomas a nivel mundial en total. Sus capacidades de procesamiento incluyen: la habilidad para realizar OCR en partes de un documento PDF o imagen, la habilidad para extraer texto de PDFs y fotos, y la capacidad para corregir una imagen de mala calidad, entre muchos otros. IronOCR prioriza la velocidad y precisión. Su tasa de precisión del 99.8 por ciento es más alta que la de cualquier otra biblioteca OCR potenciada por Tesseract en el mercado. IronOCR opera directamente, sin necesidad de ajustar el rendimiento o procesar previamente la imagen.

Syncfusion Essential PDF OCR también utiliza el motor Tesseract de código abierto de Google. Puede realizar OCR en documentos completos o en porciones específicas de los documentos. La biblioteca de OCR de Syncfusion soporta más de 60 idiomas internacionales.

Las licencias de IronOCR tienen validez de por vida con soporte ilimitado y cobertura para SaaS y OEM. Por otro lado, Syncfusion Essential PDF OCR ofrece licencias anuales. Los precios de IronOCR comienzan desde $799, y los precios de Syncfusion comienzan desde $995 por año.

Obtén IronOCR junto con otros cuatro productos de Iron Software a un precio con descuento comprando todo el Iron Suite. Los productos incluidos en el Iron Suite son:

  1. IronPDF
  2. IronOCR
  3. IronXL
  4. IronBarcode
  5. IronWebscraper

La página de licencias de Iron Software contiene información más detallada sobre precios y licenciamiento para los cinco productos mencionados anteriormente.

Por favor notaSyncfusion Essential PDF es una marca registrada de su respectivo propietario. Este sitio no está afiliado, respaldado o patrocinado por Syncfusion Essential PDF. Todos los nombres de producto, logotipos y marcas son propiedad de sus respectivos dueños. Las comparaciones son sólo para fines informativos y reflejan información disponible públicamente al momento de escribir.

Preguntas Frecuentes

¿Cómo puedo realizar OCR en imágenes usando C#?

Puedes usar IronOCR para realizar OCR en imágenes en C#. Proporciona métodos para extraer texto de varios formatos de imagen con alta precisión y admite más de 125 idiomas.

¿Cuáles son las ventajas de usar IronOCR para tareas OCR?

IronOCR ofrece excelentes tasas de precisión del 99.8%, soporta OCR en regiones específicas del documento, tiene funciones de optimización de imágenes para escaneos de baja calidad y admite una amplia gama de idiomas.

¿Cómo se compara IronOCR con las capacidades de OCR de Syncfusion?

Aunque ambos utilizan el motor Tesseract, IronOCR soporta más versiones (3-5) e idiomas (más de 125), ofrece mejor precisión y proporciona capacidades mejoradas de corrección de imágenes en comparación con el OCR de Syncfusion.

¿Qué opciones de licencia están disponibles para IronOCR?

IronOCR ofrece una licencia de desarrollo gratuita para uso personal, con licencias comerciales disponibles a partir de una tarifa única de $1599, incluyendo una licencia perpetua y cobertura SaaS/OEM.

¿Puedo usar IronOCR para extraer texto de documentos PDF escaneados?

Sí, IronOCR puede extraer texto de documentos PDF escaneados usando sus capacidades de OCR basadas en Tesseract, asegurando alta precisión y soporte de idiomas.

¿Qué plataformas son compatibles con IronOCR?

IronOCR es versátil y admite múltiples plataformas, incluyendo Windows, macOS, Linux, Azure, AWS, Lambda, Mono y Xamarin Mac.

¿Cómo maneja IronOCR los escaneos de imágenes de baja calidad?

IronOCR incluye funciones para mejorar la calidad de la imagen tales como limpieza de ruido de fondo, mejora de contraste y ajuste de resolución, lo que mejora los resultados de OCR en imágenes de baja calidad.

¿Es posible realizar OCR en áreas específicas de un documento con IronOCR?

Sí, IronOCR permite a los usuarios especificar áreas o páginas particulares de un documento para OCR, brindando flexibilidad y control sobre el proceso de extracción de texto.

¿Cómo puedo integrar IronOCR en un proyecto .NET?

IronOCR puede integrarse en un proyecto .NET a través del Administrador de paquetes NuGet de Visual Studio, desde el sitio web de NuGet o descargándolo desde el sitio web de IronOCR.

Kannaopat Udonpant
Ingeniero de Software
Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...
Leer más