COMPARACIóN CON OTROS COMPONENTES

Comparación entre IronOCR y AWS Textract OCR

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

12 de octubre, 2022

¿Qué es el OCR?

El procedimiento utilizado para transformar una imagen de texto en un formato de texto legible por máquina se conoce como Reconocimiento Óptico de Caracteres (OCR). Por ejemplo, si escanea un formulario, facturas o un recibo, el ordenador guarda el escaneado como un archivo de imagen. Los datos del archivo de imagen no pueden editarse, buscarse ni contarse con un editor de texto. Sin embargo, puede utilizar soluciones de OCR para convertir el archivo de imagen en un documento de texto con su contenido almacenado como datos de texto.

En esta era moderna, la mayoría de los flujos de trabajo empresariales implican recibir información de medios impresos. Diferentes documentos como formularios en papel, facturas, documentos legales escaneados, extracción de tablas y texto impreso o contratos son todos parte de los procesos empresariales. Además, la digitalización de este tipo de contenido documental crea imágenes con el texto oculto en su interior. El texto de las imágenes no se puede procesar con un procesador de textos del mismo modo que los documentos de texto. La tecnología OCR resuelve el problema convirtiendo las imágenes de texto en datos de texto que pueden ser analizados por otro software empresarial.

¿Cómo funciona el OCR?

El motor de OCR funciona siguiendo los siguientes pasos:

Adquisición de imágenes

En este proceso, un escáner lee los documentos y los convierte en datos binarios. Los programas de OCR identifican la imagen escaneada y clasifican las zonas claras como fondo y las oscuras como texto.

Preprocesamiento

El software de OCR primero limpia la imagen y elimina los errores para preparar sus datos para la lectura.

Reconocimiento de textos

Los dos tipos principales de algoritmos OCR para el reconocimiento de texto son la coincidencia de patrones y la extracción de características.

Concordancia de patrones

La imagen de un carácter, o glifo, se aísla a lo largo del proceso de coincidencia de patrones y se compara con un glifo registrado previamente.

Extracción de características

Mediante el proceso de extracción de características, los glifos se dividen en características como líneas, bucles cerrados, dirección de las líneas y cruces de líneas.

Postprocesado

La tecnología transforma los datos de texto recuperados en un archivo digital tras su análisis. Algunos sistemas de OCR pueden crear documentos PDF con anotaciones que incluyen las versiones antes y después del documento escaneado.

En este artículo se analiza la comparación entre dos de las aplicaciones y bibliotecas de documentos más extendidas para OCR. Estos son:

IronOCR
AWS OCR Textract

Introducción

Biblioteca IronOCR

IronOCR es una biblioteca C# .NET que ofrece servicios para escanear, buscar y leer imágenes y archivos PDF. Incluye más de 127 paquetes de idiomas globales. Los resultados se obtienen en forma de texto, datos estructurados o PDF con función de búsqueda. Compatible con versiones de .NET como 6, 5, Core, Standard y Framework.

IronOCR es único en su capacidad para detectar y extraer automáticamente datos de imágenes y documentos escaneados imperfectamente. La clase 'IronTesseract' tiene la API más sencilla. Proporciona la versión más avanzada de Tesseract conocida en cualquier lugar, en cualquier plataforma, con mayor velocidad, precisión y una DLL y API nativas.

IronOCR también puede escanear códigos de barras y códigos QR de todos los formatos de imagen, y lee texto y escanea PDF utilizando el último motor Tesseract 5.

Características

Está hecho exclusivamente para aplicaciones .NET.
Admite 127 idiomas diferentes. IronOCR admite alemán, árabe, chino, finés, francés, inglés, japonés y muchos otros idiomas.
Puede corregir la posición de una imagen inclinada y eliminar el ruido de una imagen para obtener un resultado preciso.
Su rendimiento es excepcional en imágenes de baja resolución con pocos PPP.
Puede leer múltiples tipos de códigos QR y códigos de barras.
También admite los formatos Gif y Tiff.
Permite muchos hilos a la vez. Es una característica excepcional que no está presente en otras bibliotecas de OCR. Facilita los procesos.
Puede realizar fácilmente OCR en archivos PDF y exportar documentos PDF con capacidad de búsqueda mediante OCR.
Ahora, echemos un vistazo a AWS OCR.

AWS OCR Textract

AWS Textract de Amazon es un servicio de aprendizaje automático (ML) que extrae automáticamente texto y datos de documentos escaneados. Va más allá del reconocimiento óptico de caracteres (OCR) simple para identificar, comprender y extraer datos de formularios y tablas utilizando tecnología de aprendizaje profundo.

AWS OCR Textract utiliza el aprendizaje automático para leer y procesar cualquier tipo de documento, extrayendo texto, datos tabulares y otros datos con precisión sin esfuerzo manual. En lugar de tardar horas o días en extraer los datos, Textract puede hacerlo rápidamente. Además, puedes añadir revisiones humanas con Amazon Augmented Artificial Intelligence (AI) para supervisar tus modelos y verificar datos sensibles.

Características

Detecte texto en una variedad de documentos, incluyendo informes financieros, registros médicos, tablas y formularios fiscales.
Extraiga datos de texto, formularios y tablas de documentos con datos estructurados mediante la API de análisis de documentos.
Especifique y extraiga información de los documentos mediante la función Consultas de la API de análisis de documentos.
Procese facturas y recibos con la API Analyze Expense.
Tramitar documentos de identidad como permisos de conducir y pasaportes expedidos por EE.UU. gobierno, utilizando la API Analyze ID.
Análisis escalable de documentos que puede acelerar la toma de decisiones.
El resto del artículo es el siguiente:

Creación de un proyecto de Visual Studio
Instalación de IronOCR
Instalación de AWS OCR Textract
PDF a texto
Imagen a texto
Código de barras y QR a texto
Licencias
Conclusión

1. Creación de un proyecto de Visual Studio

Este tutorial utilizará la versión 2022 de Visual Studio, por lo que asumo que debes tenerla instalada.

Abre Visual Studio 2022.
Genera un nuevo proyecto .NET Core y luego selecciona Console App.
Aplicación de consola
Dale un nombre al proyecto. Por ejemplo TextReader.
La versión más reciente y estable de .NET Framework es la 6.0. Vamos a utilizarla.
Haga clic en el botón Crear y se creará el proyecto.
A continuación, instalaremos una a una las librerías para nuestro uso.

2. Instalación de IronOCR

La biblioteca IronOCR puede descargarse e instalarse de cuatro maneras. Son las siguientes:

Uso del gestor de paquetes NuGet de Visual Studio.
Descarga directa a través del sitio web de NuGet.
Descarga directa a través de la página web de IronOCR.
Uso de la línea de comandos en Visual Studio.

2.1. Uso del gestor NuGet de Visual Studio

El gestor de paquetes NuGet de Visual Studio puede utilizarse para incorporar IronOCR a un proyecto C#.

Ampliar Herramientas o haciendo clic con el botón derecho del ratón en el explorador de soluciones.
Ampliar el gestor de paquetes NuGet.
Haga clic en Administrar paquetes NuGet para soluciones o haga clic en Administrar paquetes NuGet en el explorador de soluciones.
Gestión de paquetes NuGet
A continuación, aparecerá una nueva ventana en la barra de búsqueda: escriba IronOCR. Marque la casilla del proyecto a la derecha y haga clic en Instalar.
Examinar IronOCR
Utilizando este método, los desarrolladores pueden instalar la biblioteca IronOCR y cualquier paquete de idioma de su elección.

2.2. Descarga directa a través del sitio web de NuGet

IronOCR puede descargarse directamente del sitio web de NuGet siguiendo estas instrucciones:

Navega al enlace "https://www.nuget.org/packages/IronOcr/".
Seleccione la opción de descarga de paquetes en el menú de la derecha.
Haga doble clic en el paquete de descarga. Se instalará automáticamente.
A continuación, vuelva a cargar la solución y comience a utilizarla en el proyecto.

2.3. Descarga directa a través de la página web de IronOCR

Los desarrolladores pueden descargar la biblioteca IronOCR directamente desde el sitio web usando este enlace.

Haga clic con el botón derecho del ratón en el proyecto de la ventana de la solución.
A continuación, seleccione la opción Referencia y busque la ubicación de la referencia descargada.
A continuación, haga clic en Aceptar para añadir la referencia.

2.4. Uso de la línea de comandos en Visual Studio

En Visual Studio, vaya a Herramientas-> Gestor de paquetes NuGet -> Consola del gestor de paquetes
Introduzca la siguiente línea en la pestaña de la consola del gestor de paquetes:

Install-Package IronOcr

El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

Aplicación de consola

Después de escribir el comando, pulse Intro y se instalará.

2.5. Añadir espacio de nombres IronOCR

Incluya esta línea de código en el programa para utilizar IronOCR:

using IronOcr;

using IronOcr;

Imports IronOcr

$vbLabelText $csharpLabel

Ahora vamos a instalar AWS Textract.

3. Instalación de AWS Textract OCR

Antes de utilizar Amazon Textract por primera vez, complete las siguientes tareas:

Regístrese en los servicios de AWS.
Crear un usuario IAM.
Una vez que te hayas registrado correctamente en la cuenta y hayas creado el usuario IAM, ya puedes configurar las claves de acceso en la consola de AWS para acceder a la API mediante programación utilizando C#. Necesitarás:
- AccessKeyId
- Clave de acceso secreta
- RegionEndPoint (Tu área de acceso) - En este caso de ejemplo: AFSouth1

3.1. Uso del gestor de paquetes NuGet

Puede descargar e instalar AWS Textract SDK desde NuGet Package Manager.
Gestor de paquetes NuGet
Haga clic en Examinar y busque AWS Textract:
AWS Textract

3.2. Añadir espacios de nombres AWS OCR

Incluya los siguientes espacios de nombres para utilizar AWS Textract:

using Amazon.Textract;
using Amazon.Textract.Model;

using Amazon.Textract;
using Amazon.Textract.Model;

Imports Amazon.Textract
Imports Amazon.Textract.Model

$vbLabelText $csharpLabel

4. Archivo PDF a Texto

Ambas bibliotecas pueden extraer texto de archivos PDF. Veamos el código uno por uno.

4.1. Utilización de IronOCR

IronOCR permite reconocer y leer texto de formatos de documentos PDF utilizando el avanzado Tesseract. Para extraer la información se utiliza el siguiente código sencillo:

var Ocr = new IronTesseract();
using (var input = new OcrInput())
{
    input.AddPdf("example.pdf","password");
    // We can also select specific PDF page numbers to OCR
    var Result = Ocr.Read(input);
    Console.WriteLine(Result.Text);
    Console.WriteLine($"{Result.Pages.Count()} Pages");
    // Read every page of the PDF
}

var Ocr = new IronTesseract();
using (var input = new OcrInput())
{
    input.AddPdf("example.pdf","password");
    // We can also select specific PDF page numbers to OCR
    var Result = Ocr.Read(input);
    Console.WriteLine(Result.Text);
    Console.WriteLine($"{Result.Pages.Count()} Pages");
    // Read every page of the PDF
}

Dim Ocr = New IronTesseract()
Using input = New OcrInput()
	input.AddPdf("example.pdf","password")
	' We can also select specific PDF page numbers to OCR
	Dim Result = Ocr.Read(input)
	Console.WriteLine(Result.Text)
	Console.WriteLine($"{Result.Pages.Count()} Pages")
	' Read every page of the PDF
End Using

$vbLabelText $csharpLabel

El código es sencillo, limpio y muy fácil de entender y utilizar.

Archivo PDF de entrada

Ejemplo de PDF

Salida

Salida IronOCR

4.2. AWS Textract

Amazon Textract facilita la incorporación de la detección y el análisis de texto de documentos a sus aplicaciones. El siguiente código se utiliza para leer PDF y el mismo PDF se pasa:

public static async void ReturnResult()
{
    AmazonTextractClient client = new AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1);
    var request = new StartDocumentTextDetectionRequest();
    request.DocumentLocation = new DocumentLocation
    {
        S3Object = new S3Object
                {
                    Bucket = "your_bucket_name",
                    Name = "your_bucket_key"
                }
         };
         var id = await client.StartDocumentTextDetectionAsync(request);
         var jobId = id.JobId;
         var response = client.GetDocumentTextDetectionAsync(new GetDocumentTextDetectionRequest{
             JobId = jobId
         });
         response.Wait();
         if (response.Result.JobStatus.Equals("SUCCEEDED"))
         {
        foreach (var block in response.Result.Blocks)
                {
                    if (block.BlockType == "WORD")
                    {
                        Console.WriteLine(block.Text);
                    }
                    else if (block.BlockType == "PAGE")
                    {
                        Console.WriteLine(block.Text);
                    }
                    else if (block.BlockType == "Line")
                    {
                        Console.WriteLine(block.Text);
                    }
                }
            }
        }
}
static void Main(String [] args)
{
    ReturnResult();
}

public static async void ReturnResult()
{
    AmazonTextractClient client = new AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1);
    var request = new StartDocumentTextDetectionRequest();
    request.DocumentLocation = new DocumentLocation
    {
        S3Object = new S3Object
                {
                    Bucket = "your_bucket_name",
                    Name = "your_bucket_key"
                }
         };
         var id = await client.StartDocumentTextDetectionAsync(request);
         var jobId = id.JobId;
         var response = client.GetDocumentTextDetectionAsync(new GetDocumentTextDetectionRequest{
             JobId = jobId
         });
         response.Wait();
         if (response.Result.JobStatus.Equals("SUCCEEDED"))
         {
        foreach (var block in response.Result.Blocks)
                {
                    if (block.BlockType == "WORD")
                    {
                        Console.WriteLine(block.Text);
                    }
                    else if (block.BlockType == "PAGE")
                    {
                        Console.WriteLine(block.Text);
                    }
                    else if (block.BlockType == "Line")
                    {
                        Console.WriteLine(block.Text);
                    }
                }
            }
        }
}
static void Main(String [] args)
{
    ReturnResult();
}

Public Shared Async Sub ReturnResult()
	Dim client As New AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1)
	Dim request = New StartDocumentTextDetectionRequest()
	request.DocumentLocation = New DocumentLocation With {
		.S3Object = New S3Object With {
			.Bucket = "your_bucket_name",
			.Name = "your_bucket_key"
		}
	}
		 Dim id = Await client.StartDocumentTextDetectionAsync(request)
		 Dim jobId = id.JobId
		 Dim response = client.GetDocumentTextDetectionAsync(New GetDocumentTextDetectionRequest With {.JobId = jobId})
		 response.Wait()
		 If response.Result.JobStatus.Equals("SUCCEEDED") Then
		For Each block In response.Result.Blocks
					If block.BlockType = "WORD" Then
						Console.WriteLine(block.Text)
					ElseIf block.BlockType = "PAGE" Then
						Console.WriteLine(block.Text)
					ElseIf block.BlockType = "Line" Then
						Console.WriteLine(block.Text)
					End If
		Next block
		 End If
End Sub
}
Shared Sub Main(ByVal args() As String)
	ReturnResult()
End Sub

$vbLabelText $csharpLabel

El código es un poco complicado, largo y requiere atención al pasar y recuperar objetos. Primero, tenemos que crear el objeto AmazonTextractClient con 3 parámetros: AccessKeyId, SecretAccessKey, y Region. A continuación, tenemos que iniciar una solicitud utilizando el método StartDocumentTextDetectionRequest(). El objeto de solicitud luego establece el DocumentLocation utilizando el nombre del bucket y la clave. Esta solicitud se pasa al método StartDocumentTextDetectionAsync(). Como es un método async, tenemos que usar la palabra clave await antes de él y hacer que la función ReturnResult sea async. Si tiene éxito, se devuelve el resultado y se guarda el jobid. El jobid se pasa al método GetDocumentTextDetectionAsync() y se espera una respuesta SUCCEEDED. El bucle Foreach se utiliza para recorrer cada bloque y comprobar si es "PALABRA", "PÁGINA" o "LÍNEA", y luego imprimir el reconocimiento de texto. Por último, llame a este método en el método Main para el procesamiento de documentos.

Salida

El resultado es bastante similar al de IronOCR.

Salida de AWS Textract

5. Imágenes a texto

Leer datos de imágenes es complicado, ya que la calidad de la imagen desempeña un papel vital a la hora de extraer información. Ambas bibliotecas permiten extraer texto. Aquí utilizaremos archivos png.

5.1. Utilización de IronOCR

El código es casi similar al anterior. Aquí, el método AddPDF se reemplaza por el método AddImage.

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png")
    //... you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png")
    //... you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Dim Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png") var Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

Imagen de entrada

Datos suprimidos de los empleados

Salida

La salida es limpia y coincide con la imagen original sólo con unas pocas líneas de código sin ningún tecnicismo y salida perfecta.

Salida de imágenes

5.2. Uso de AWS Textract

El siguiente código ayuda a detectar texto a partir de imágenes:

public static async void ReturnResult()
{
    AmazonTextractClient client = new   AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1);
    var request = new DetectDocumentTextRequest();
    request.Document = new Document {
            Bytes = new MemoryStream(File.ReadAllBytes(@"test-files/redacted-employmentapp.png"))}; 
    var result = await client.DetectDocumentTextAsync(request);
    foreach (var block in result.Blocks)
    {
        if (block.BlockType == "WORD")
        {
            Console.WriteLine(block.Text);
        }
    }
}

static void Main(String [] args)
{
    ReturnResult();
}

public static async void ReturnResult()
{
    AmazonTextractClient client = new   AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1);
    var request = new DetectDocumentTextRequest();
    request.Document = new Document {
            Bytes = new MemoryStream(File.ReadAllBytes(@"test-files/redacted-employmentapp.png"))}; 
    var result = await client.DetectDocumentTextAsync(request);
    foreach (var block in result.Blocks)
    {
        if (block.BlockType == "WORD")
        {
            Console.WriteLine(block.Text);
        }
    }
}

static void Main(String [] args)
{
    ReturnResult();
}

Public Shared Async Sub ReturnResult()
	Dim client As New AmazonTextractClient("your_access_key_id", "your_secret_access_key", Amazon.RegionEndpoint.AFSouth1)
	Dim request = New DetectDocumentTextRequest()
	request.Document = New Document With {.Bytes = New MemoryStream(File.ReadAllBytes("test-files/redacted-employmentapp.png"))}
	Dim result = Await client.DetectDocumentTextAsync(request)
	For Each block In result.Blocks
		If block.BlockType = "WORD" Then
			Console.WriteLine(block.Text)
		End If
	Next block
End Sub

Shared Sub Main(ByVal args() As String)
	ReturnResult()
End Sub

$vbLabelText $csharpLabel

De nuevo, el código es casi similar al anterior. Aquí, tenemos que iniciar una solicitud utilizando el método DetectDocumentTextRequest(). A continuación, el objeto de solicitud establece el documento leyendo todos los bytes. Esta solicitud se pasa luego al método DetectDocumentTextAsync(). Como es un método async, tenemos que usar la palabra clave await antes de él y hacer que la función ReturnResult sea async. Si tiene éxito, el resultado se devuelve en bloques. El bucle Foreach se utiliza para recorrer cada bloque y comprobar si es "WORD", a continuación, imprimir el reconocimiento de texto. Por último, llame a este método en el método Main para el procesamiento de documentos.

El resultado es similar al de IronOCR, pero este necesita que el archivo se cargue en el bucket de AWS en primer lugar.

6. Código de barras y código QR a texto

Una característica única de IronOCR es que puede leer códigos de barras y códigos QR de los documentos mientras escanea el texto. Las instancias de la clase OcrResult.OcrBarcode proporcionan al desarrollador información detallada sobre cada código de barras escaneado. AWS Textract no proporciona esta funcionalidad.

A continuación se indica el código de IronOCR:

var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
    input.AddImage("test-files/Barcode.png");
    var Result = Ocr.Read(input);
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
        // type and location properties also exposed
    }
}

var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
    input.AddImage("test-files/Barcode.png");
    var Result = Ocr.Read(input);
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
        // type and location properties also exposed
    }
}

Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
	input.AddImage("test-files/Barcode.png")
	Dim Result = Ocr.Read(input)
	For Each Barcode In Result.Barcodes
		Console.WriteLine(Barcode.Value)
		' type and location properties also exposed
	Next Barcode
End Using

$vbLabelText $csharpLabel

El código se explica por sí mismo y es fácil de entender.

7. Licencias

IronOCR es una biblioteca que proporciona una licencia de desarrollador de forma gratuita. También tiene una estructura de precios distinta; el paquete Lite comienza en $749 sin tarifas ocultas. También es posible la redistribución de productos SaaS y OEM. Todas las licencias vienen con una garantía de devolución de dinero de 30 días, un año de soporte y actualizaciones de software, validez dev/staging/production, y una licencia perpetua (compra única). Para ver la estructura de precios completa y los detalles de licencia de IronOCR, haga clic aquí.

Plan de precios IronOCR

Puede obtener el servicio de redistribución de productos SaaS y OEM sin derechos de autor por sólo 1599 $ en una única compra.

Servicio SAAS

AWS Textract API proporciona a los desarrolladores un servicio de AWS Free Tier. Puedes comenzar con Amazon Textract de forma gratuita. El nivel gratuito tiene una duración de tres meses y los precios se muestran a continuación.

Lista de Precios

Lista de precios

Puedes consultar los detalles de precios en este enlace. Además, puede ajustar los precios según sus necesidades utilizando la calculadora de precios.

8. Conclusión

IronOCR ofrece a los desarrolladores de C# la API Tesseract más avanzada que conocemos, en cualquier plataforma. IronOCR se puede implementar en Windows, Linux, Mac, Azure, AWS, Lambda y es compatible con proyectos .NET Framework así como con .NET Standard y .NET Core. También podemos leer códigos de barras en escaneados OCR, e incluso exportar nuestro OCR como HTML y PDF con capacidad de búsqueda.

Amazon Textract facilita la incorporación de la detección y el análisis de texto de documentos a sus aplicaciones. Amazon Textract se basa en la probada tecnología de aprendizaje profundo, altamente escalable, desarrollada por los científicos de visión informática de Amazon para analizar miles de millones de imágenes y vídeos a diario. No necesitas conocimientos de aprendizaje automático para utilizarlo. Amazon Textract incluye API sencillas y fáciles de usar que pueden analizar archivos de imagen y archivos PDF. Amazon Textract siempre está aprendiendo de nuevos datos, y Amazon añade continuamente nuevas funciones al servicio.

Las licencias de IronOCR están basadas en el desarrollador, lo que significa que siempre debe adquirir una licencia basada en el número de desarrolladores que utilizarán el producto. Las licencias de AWS Textract se basan en el número de páginas del documento para extraer información y analizar los datos. Las licencias son mensuales y los precios son muy altos para un gran número de páginas en comparación con la licencia IronOCR. Además, la licencia de IronOCR se adquiere una sola vez y puede utilizarse de por vida, y admite la distribución OME y SaaS.

En comparación general, IronOCR y AWS OCR tienen capacidades de aprendizaje automático para detectar texto de un documento o imagen. IronOCR tiene una ligera ventaja sobre AWS OCR, ya que es rápido y ahorra tiempo. El código es sencillo y resulta fácil detectar el texto de los documentos. La tarea se lleva a cabo de varias maneras. Por otro lado, AWS Textract utiliza muchos métodos para lograr la misma tarea. Esto aumenta la respuesta del servidor y a veces lleva mucho tiempo. Podemos ver que si introducimos un documento imperfecto en IronOCR, éste puede leer su contenido con una precisión estadística de alrededor del 99%, aunque el documento esté mal formateado, sesgado y tenga ruido digital. IronOCR funciona de forma inmediata, sin necesidad de ajustar el rendimiento o modificar en profundidad las imágenes introducidas. Velocidad es Blazing: IronOCR.2020 + es hasta 10 veces más rápido y hace más de 250% menos errores que las versiones anteriores.

Además, Iron Software ofrece actualmente un paquete de cinco herramientas por el precio de sólo dos. Las herramientas incluidas en Iron Suite son:

IronBarcode
IronXL
IronOCR
IronPDF
IronWebscraper
Por favor, visita este enlace para explorar la IRONSUITE.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
Comparación entre IronOCR y Syncfusion OCR

SIGUIENTE >
Alternativas a Tesseract (actualización de 2022)