HERRAMIENTAS OCR

Comparación detallada entre Windows OCR Engine y Tesseract

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

3 de abril, 2024

En la era digital actual, la tecnología de Reconocimiento Óptico de Caracteres (OCR) se ha vuelto integral para diversas industrias, permitiendo la conversión de imágenes y documentos escaneados en texto editable y buscable.

Entre los muchos software de OCR disponibles, como Google Cloud Vision (Cloud Vision API), Adobe Acrobat Pro DC, ABBYY Finereader y muchos más, Windows OCR Engine vs Tesseract, y IronOCR se destacan como contendientes prominentes, cada uno ofreciendo características y capacidades únicas para ayudar en el análisis de documentos.

Este artículo pretende ofrecer un análisis comparativo exhaustivo de estos tres motores de OCR, evaluando su precisión, rendimiento y facilidad de integración.

1. Introducción a los motores OCR

Los motores OCR son herramientas de software diseñadas para reconocer y extraer texto sin formato de imágenes, PDF y otros documentos escaneados. Emplean sofisticados algoritmos y técnicas de aprendizaje automático para identificar con precisión los caracteres y convertirlos en un archivo de texto legible por máquina. Windows OCR Engine, Tesseract e IronOCR representan tres soluciones de OCR muy utilizadas, cada una con sus puntos fuertes y aplicaciones.

2. Motor OCR de Windows

El Motor OCR de Windows, integrado en el sistema operativo Windows, ofrece una solución conveniente y fácil de usar para extraer texto de imágenes de entrada y documentos escaneados. Aprovechando técnicas avanzadas de procesamiento de imágenes, puede reconocer con precisión texto en varios idiomas y estilos de fuente. Se puede acceder al motor de OCR de Windows a través de la API de tiempo de ejecución de Windows, lo que permite una integración perfecta en las aplicaciones de Windows con las capacidades de una herramienta de línea de comandos.

2.1 Características principales del motor OCR de Windows

Soporte de idiomas: El motor de OCR de Windows admite muchos idiomas, por lo que es adecuado para documentos multilingües.
Procesamiento de imágenes: Emplea sofisticados algoritmos de procesamiento de imágenes para mejorar la precisión del reconocimiento de texto impreso, incluso en imágenes de baja calidad.
Integración con aplicaciones Windows: El motor de OCR de Windows se integra a la perfección con las aplicaciones de Windows, lo que permite a los desarrolladores incorporar plenamente las funciones de OCR en su software.

2.2 Ejemplo de código

using System;
using System.IO;
using System.Text;
using System.Threading.Tasks;
class Program
{
    static async Task Main(string [] args)
    {
        // Provide the path to the image file
        string imagePath = "sample.png";
        try
        {
            // Instantiate the program class
            Program program = new Program();
            // Call the ExtractText method to extract text from the image
            string extractedText = await program.ExtractText(imagePath);
            // Display the extracted text
            Console.WriteLine("Extracted Text:");
            Console.WriteLine(extractedText);
        }
        catch (Exception ex)
        {
            Console.WriteLine("An error occurred: " + ex.Message);
        }
    }
    public async Task<string> ExtractText(string image)
    {
        // Initialize StringBuilder to store extracted text
        StringBuilder text = new StringBuilder();
        try
        {
            // Open the image file stream
            using (var fileStream = System.IO.File.OpenRead(image))
            {
                Console.WriteLine("Extracted Text:");
                // Create a BitmapDecoder from the image file stream
                var bmpDecoder = await Windows.Graphics.Imaging.BitmapDecoder.CreateAsync(fileStream.AsRandomAccessStream());
                // Get the software bitmap from the decoder
                var softwareBmp = await bmpDecoder.GetSoftwareBitmapAsync();
                // Create an OCR engine from user profile languages
                var ocrEngine = Windows.Media.Ocr.OcrEngine.TryCreateFromUserProfileLanguages();
                // Recognize text from the software bitmap
                var ocrResult = await ocrEngine.RecognizeAsync(softwareBmp);
                // Append each line of recognized text to the StringBuilder
                foreach (var line in ocrResult.Lines)
                {
                    text.AppendLine(line.Text);
                }
            }
        }
        catch (Exception ex)
        {
            throw ex; // Propagate the exception
        }
        // Return the extracted text
        return text.ToString();
    }
}

using System;
using System.IO;
using System.Text;
using System.Threading.Tasks;
class Program
{
    static async Task Main(string [] args)
    {
        // Provide the path to the image file
        string imagePath = "sample.png";
        try
        {
            // Instantiate the program class
            Program program = new Program();
            // Call the ExtractText method to extract text from the image
            string extractedText = await program.ExtractText(imagePath);
            // Display the extracted text
            Console.WriteLine("Extracted Text:");
            Console.WriteLine(extractedText);
        }
        catch (Exception ex)
        {
            Console.WriteLine("An error occurred: " + ex.Message);
        }
    }
    public async Task<string> ExtractText(string image)
    {
        // Initialize StringBuilder to store extracted text
        StringBuilder text = new StringBuilder();
        try
        {
            // Open the image file stream
            using (var fileStream = System.IO.File.OpenRead(image))
            {
                Console.WriteLine("Extracted Text:");
                // Create a BitmapDecoder from the image file stream
                var bmpDecoder = await Windows.Graphics.Imaging.BitmapDecoder.CreateAsync(fileStream.AsRandomAccessStream());
                // Get the software bitmap from the decoder
                var softwareBmp = await bmpDecoder.GetSoftwareBitmapAsync();
                // Create an OCR engine from user profile languages
                var ocrEngine = Windows.Media.Ocr.OcrEngine.TryCreateFromUserProfileLanguages();
                // Recognize text from the software bitmap
                var ocrResult = await ocrEngine.RecognizeAsync(softwareBmp);
                // Append each line of recognized text to the StringBuilder
                foreach (var line in ocrResult.Lines)
                {
                    text.AppendLine(line.Text);
                }
            }
        }
        catch (Exception ex)
        {
            throw ex; // Propagate the exception
        }
        // Return the extracted text
        return text.ToString();
    }
}

Imports System
Imports System.IO
Imports System.Text
Imports System.Threading.Tasks
Friend Class Program
	Shared Async Function Main(ByVal args() As String) As Task
		' Provide the path to the image file
		Dim imagePath As String = "sample.png"
		Try
			' Instantiate the program class
			Dim program As New Program()
			' Call the ExtractText method to extract text from the image
			Dim extractedText As String = Await program.ExtractText(imagePath)
			' Display the extracted text
			Console.WriteLine("Extracted Text:")
			Console.WriteLine(extractedText)
		Catch ex As Exception
			Console.WriteLine("An error occurred: " & ex.Message)
		End Try
	End Function
	Public Async Function ExtractText(ByVal image As String) As Task(Of String)
		' Initialize StringBuilder to store extracted text
		Dim text As New StringBuilder()
		Try
			' Open the image file stream
			Using fileStream = System.IO.File.OpenRead(image)
				Console.WriteLine("Extracted Text:")
				' Create a BitmapDecoder from the image file stream
				Dim bmpDecoder = Await Windows.Graphics.Imaging.BitmapDecoder.CreateAsync(fileStream.AsRandomAccessStream())
				' Get the software bitmap from the decoder
				Dim softwareBmp = Await bmpDecoder.GetSoftwareBitmapAsync()
				' Create an OCR engine from user profile languages
				Dim ocrEngine = Windows.Media.Ocr.OcrEngine.TryCreateFromUserProfileLanguages()
				' Recognize text from the software bitmap
				Dim ocrResult = Await ocrEngine.RecognizeAsync(softwareBmp)
				' Append each line of recognized text to the StringBuilder
				For Each line In ocrResult.Lines
					text.AppendLine(line.Text)
				Next line
			End Using
		Catch ex As Exception
			Throw ex ' Propagate the exception
		End Try
		' Return the extracted text
		Return text.ToString()
	End Function
End Class

$vbLabelText $csharpLabel

2.2.1 Salida

Motor OCR de Windows vs Tesseract (Comparación de características OCR): Figura 1 - Salida de consola para el código del motor OCR de Windows

3. Teseracto

Tesseract, un motor OCR de código abierto desarrollado por Google, ha ganado gran popularidad por su precisión y versatilidad. Es compatible con más de 100 idiomas y puede procesar varios formatos de imagen, como TIFF, JPEG y PNG. Tesseract OCR Engine emplea algoritmos de aprendizaje profundo y redes neuronales para lograr altos niveles de precisión en el reconocimiento de texto, lo que lo hace adecuado para una amplia gama de aplicaciones.

3.1 Principales características de Tesseract

Soporte de idiomas: El motor Tesseract admite más de 100 idiomas, incluidos alfabetos complejos como el árabe y el chino.
Preprocesamiento de imágenes: Ofrece amplias funciones de preprocesamiento de imágenes, como deskewing, binarización y reducción de ruido, para mejorar la precisión del reconocimiento de texto.
Opciones de personalización: Tesseract permite a los usuarios ajustar con precisión los parámetros de OCR y entrenar modelos personalizados para casos de uso específicos, mejorando la precisión y el rendimiento.

3.2 Ejemplo de código

using Patagames.Ocr;
using (var api = OcrApi.Create())
{
    api.Init(Patagames.Ocr.Enums.Languages.English);
    string plainText = api.GetTextFromImage(@"C:\Users\buttw\source\repos\ironqr\ironqr\bin\Debug\net5.0\Iron.png");
    Console.WriteLine(plainText);
}

using Patagames.Ocr;
using (var api = OcrApi.Create())
{
    api.Init(Patagames.Ocr.Enums.Languages.English);
    string plainText = api.GetTextFromImage(@"C:\Users\buttw\source\repos\ironqr\ironqr\bin\Debug\net5.0\Iron.png");
    Console.WriteLine(plainText);
}

Imports Patagames.Ocr
Using api = OcrApi.Create()
	api.Init(Patagames.Ocr.Enums.Languages.English)
	Dim plainText As String = api.GetTextFromImage("C:\Users\buttw\source\repos\ironqr\ironqr\bin\Debug\net5.0\Iron.png")
	Console.WriteLine(plainText)
End Using

$vbLabelText $csharpLabel

3.2.1 Salida

Motor OCR de Windows vs Tesseract (Comparación de Características OCR): Figura 2 - Salida de consola para el código de Tesseract

4. IronOCR

IronOCR, un potente motor OCR desarrollado por Iron Software, se distingue por su excepcional precisión, facilidad de uso y soporte versátil de idiomas. Ofrece funciones de OCR in situ y es compatible con más de 127 idiomas, lo que lo hace adecuado para aplicaciones globales. IronOCR aprovecha los algoritmos avanzados de aprendizaje automático y la tecnología de visión en la nube para ofrecer resultados precisos de reconocimiento de texto, incluso en escenarios difíciles.

4.1 Principales características de IronOCR

Alta precisión: IronOCR ofrece una precisión líder en el sector en el reconocimiento de texto, lo que garantiza resultados fiables en diversos tipos de documentos e idiomas.
Soporte versátil de idiomas: Es compatible con más de 127 idiomas y proporciona paquetes de idiomas completos para un reconocimiento de texto multilingüe sin problemas.
Integración sencilla: IronOCR ofrece una integración directa con aplicaciones .NET, con API intuitivas y amplia documentación para agilizar el proceso de desarrollo con preprocesamiento, y postprocesamiento de imágenes originales para extraer textos.

4.2 Instalación de IronOCR

Antes de pasar a la codificación Ejemplo vamos a ver cómo instalar IronOCR utilizando el NuGet Package Manager.

En Visual Studio vaya al menú Herramientas y seleccione Gestor de paquetes NuGet.
1. Aparecerá una nueva lista, aquí seleccione el Gestor de paquetes NuGet para soluciones.
Aparecerá una nueva ventana, vaya a la pestaña "Examinar" y haga clic en "IronOCR" en la barra de búsqueda.
1. Aparecerá una lista de paquetes Seleccione el último paquete IronOCR y haga clic en instalar.

4.3 Ejemplo de código (C#)

using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
var result = ocr.Read("C:\\Users\\buttw\\source\\repos\\ironqr\\ironqr\\bin\\Debug\\net5.0\\Iron.png");
Console.WriteLine(result.Text);

using IronOcr;
var ocr = new IronTesseract();
ocr.Language = OcrLanguage.English;
var result = ocr.Read("C:\\Users\\buttw\\source\\repos\\ironqr\\ironqr\\bin\\Debug\\net5.0\\Iron.png");
Console.WriteLine(result.Text);

Imports IronOcr
Private ocr = New IronTesseract()
ocr.Language = OcrLanguage.English
Dim result = ocr.Read("C:\Users\buttw\source\repos\ironqr\ironqr\bin\Debug\net5.0\Iron.png")
Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

4.3.1 Salida

Motor OCR de Windows vs Tesseract (Comparación de características de OCR): Figura 5 - Salida de consola para el código de IronOCR

5. Evaluación comparativa

5.1 Precisión y rendimiento

El motor OCR de Windows y Tesseract ofrecen una precisión decente pero pueden tener dificultades con diseños complejos.
IronOCR: Sobresale en precisión, ofreciendo resultados confiables en diversos tipos de documentos e idiomas, incluidas imágenes ruidosas.

5.2 Facilidad de integración

Motor de OCR de Windows: Se integra perfectamente con las aplicaciones de Windows, pero carece de opciones de personalización.
Tesseract: Requiere configuración y dependencias adicionales para la integración, pero ofrece amplias opciones de personalización.
IronOCR: Ofrece una integración sencilla con aplicaciones .NET, con API intuitivas y documentación completa.

5.3 Soporte lingüístico

Windows OCR Engine y Tesseract Admite un número limitado de idiomas en comparación con Tesseract e IronOCR.
IronOCR: es compatible con más de 127 idiomas, lo que lo hace adecuado para aplicaciones globales.
6. Conclusión
En conclusión, aunque Windows OCR Engine y Tesseract son opciones populares para el reconocimiento de texto, IronOCR emerge como el motor OCR más preciso y versátil. Su precisión líder en la industria, su amplio soporte de idiomas y su sencilla integración lo convierten en una solución destacada para empresas y desarrolladores que buscan una funcionalidad OCR confiable. Al aprovechar IronOCR, las organizaciones pueden agilizar los flujos de trabajo de procesamiento de documentos, mejorar la precisión de la extracción de datos y obtener información valiosa de los documentos e imágenes escaneados.
IronOCR ofrece una prueba gratuita. Para saber más sobre IronOCR y sus características, visita aquí.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
OCR en la nube (comparación de funciones de OCR)

SIGUIENTE >
Azure OCR vs Google OCR (Comparación de funciones OCR)