HERRAMIENTAS OCR

Instalar Tesseract (Tutorial paso a paso con imágenes)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

27 de enero, 2023

¿Qué es Tesseract OCR?

Tesseract es una biblioteca de software de código abierto, lanzada bajo el acuerdo de licencia Apache. Fue desarrollado originalmente por Hewlett Packard en la década de 1980. Es una herramienta de reconocimiento de texto que se utiliza principalmente para identificar y extraer textos de imágenes. Tesseract OCR proporciona una interfaz de símbolo del sistema para realizar esta función.

IronOCR is built on top of Tesseract. Read texts from images and PDFs with 99.8% accuracy with just a few lines of code (without relying on external web services). IronOCR extracts content from poor quality images and scans as well. Say goodbye to cumbersome performance tuning and tedious preprocessing work. Trust IronOCR to do the job quickly when speed, accuracy, and ease of use matters.

Learn more about IronOCR's features or today!

Cómo descargar Tesseract OCR en Windows

Descargar el instalador de Tesseract para Windows
Instalar Tesseract OCR
Añada la ruta de instalación a las variables de entorno
Ejecutar Tesseract OCR

1. Descargar el instalador de Tesseract para Windows

Para utilizar el comando Tesseract en Windows, primero necesitamos descargar los binarios .exe Windows Installer de Tesseract OCR.

Hay muchos sitios donde se puede descargar la última versión de Tesseract OCR. Un lugar así es tesseract-ocr/tesseract (Repositorio Principal).

Tesseract Wiki

Descargue el tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) instalador de Windows.

Tesseract puede instalarse en Python prompt en macOS utilizando cualquiera de los comandos siguientes:

brew install tesseract

sudo port install tesseract

2. Instalar Tesseract OCR

A continuación, instalaremos Tesseract utilizando el archivo .exe que descargamos en el paso anterior. Ejecuta el instalador .exe para iniciar la instalación de Tesseract.

Idioma del instalador

Una vez finalizado el desempaquetado de la instalación, aparecerá el cuadro de diálogo de datos de idioma del instalador. Puede instalar Tesseract para utilizar varios idiomas seleccionando paquetes de idiomas adicionales, pero aquí sólo instalaremos los datos de idioma para el idioma inglés.

Instalador de Tesseract

Haga clic en OK y el idioma del instalador para Tesseract OCR está configurado.

Configuración de Tesseract OCR

A continuación, aparecerá el asistente de configuración. Este asistente de instalación guiará la instalación de Tesseract para Windows.

Asistente de configuración de Tesseract OCR

Haga clic en Siguiente para continuar con la instalación.

Aceptar el Acuerdo de Licencia

Tesseract OCR está licenciado bajo Apache License Version 2.0. Al ser de código abierto y de uso libre, puede redistribuir y modificar versiones de Tesseract sin problemas de lealtad.

Tesseract OCR está licenciado bajo Apache License v2.0. Por favor, acepte esta licencia para continuar con la instalación.

Haga clic en Estoy de acuerdo para continuar con la instalación.

Elegir usuarios

Puede elegir instalar Tesseract para varios usuarios o para un solo usuario.

Elija instalar Tesseract OCR para el usuario actual (usted) o para todas las cuentas de usuario.

Haga clic en Siguiente para elegir los componentes que desea instalar con Tesseract.

Elegir componentes

De la lista de componentes a instalar, ScrollView, Herramientas de formación, Creación de accesos directos y Datos de idioma están seleccionados por defecto. Mantendremos todas las opciones seleccionadas por defecto. Puede elegir u omitir cualquier componente en función de sus necesidades. Por lo general, es necesario instalarlos todos.

Aquí, puede elegir incluir o excluir los componentes de Tesseract OCR. Para obtener los mejores resultados, continúe la instalación con los componentes por defecto seleccionados.

Haga clic en Siguiente para elegir la ubicación de instalación.

Elija el lugar de instalación

A continuación, elegiremos la ubicación para instalar Tesseract. Asegúrese de copiar la ruta de la carpeta de destino. Lo necesitaremos más adelante para añadir la ubicación de la instalación a la Variable de entorno de la ruta de la máquina.

Seleccione una ubicación de instalación para la biblioteca Tesseract OCR y recuérdela para más tarde.

Haga clic en Siguiente para seguir configurando la instalación de Tesseract.

Elija la carpeta del menú Inicio

Este es el último paso en el que crearemos accesos directos en el menú Inicio. Puedes ponerle el nombre que quieras a la carpeta, pero yo lo he dejado igual que por defecto.

Elija el nombre de la carpeta del menú Inicio de Tesseract OCR

Ahora, haga clic en Instalar y espere a que finalice la instalación. Una vez realizada la instalación, aparecerá la siguiente pantalla. Haga clic en Finalizar y habremos terminado con éxito la instalación de Tesseract OCR en Windows.

La instalación de Tesseract OCR ha finalizado.

3. Añada la ruta de instalación a las variables de entorno del sistema

Ahora, añadiremos la ruta de instalación de Tesseract a las variables de entorno de Windows.

En el menú de inicio, escribe "variables de entorno" o "configuración avanzada del sistema"

Cuadro de diálogo Propiedades del sistema de Windows

Propiedades del sistema

Cuando se abra el cuadro de diálogo Propiedades del sistema, haga clic en Avanzadas y, a continuación, en el botón Variables de entorno, situado en la parte inferior derecha de la pantalla.

Aparecerá el cuadro de diálogo Variables de entorno.

Variables de entorno

En Variables del sistema, haz clic en la variable Path.

Acceso a las variables de entorno del sistema de Windows

Ahora, haga clic en Editar.

Añadir el directorio de instalación de Tesseract OCR para Windows a las variables de entorno

Desde el cuadro de diálogo Editar variable de entorno, haga clic en Nuevo. Pegue la ruta de la ubicación de instalación que se copió durante el segundo paso y haga clic en Aceptar.

Edite la variable de entorno del sistema Path de Windows añadiendo una entrada que incluya la ruta absoluta a la instalación de Tesseract OCR

¡Eso es todo! Hemos descargado, instalado y configurado correctamente la variable de entorno para Tesseract OCR en una máquina Windows.

4. Ejecutar Tesseract OCR

Para verificar que Tesseract OCR para Windows se instaló correctamente y se agregó a Variables de Entorno, abra el Símbolo del sistema (cmd) en su máquina Windows, luego ejecute el comando "tesseract". Si todo ha funcionado correctamente, se debe mostrar una guía de uso con una explicación rápida del OCR y de las opciones individuales, como la versión de Tesseract.

Ejecute el comando tesseract en la línea de comandos de Windows (o Windows Powershell) para asegurarse de que los pasos de instalación anteriores se realizaron correctamente. La salida de la consola es el resultado esperado de una instalación exitosa en Windows.

¡Felicidades! Hemos instalado correctamente Tesseract OCR para Windows.

Biblioteca IronOCR

IronOCR es una biblioteca de C# basada en Tesseract que permite a los desarrolladores de software .NET identificar y extraer texto de imágenes y documentos PDF. Está construido íntegramente en .NET, utilizando el motor Tesseract más avanzado que se conoce.

Instalación con el gestor de paquetes NuGet

Instalar IronOCR en Visual Studio o utilizando la línea de comandos con el gestor de paquetes NuGet es muy sencillo. En Visual Studio, vaya a las opciones de menú con:

Herramientas > Gestor de paquetes NuGet > Consola del Gestor de paquetes

A continuación, en la línea de comandos, escriba el siguiente comando:

Install-Package IronOcr

Esto instalará IronOCR con facilidad y ahora podrá utilizarlo para extraer todo su potencial.

También puedes descargar otros IronOCR NuGet Packages para diferentes plataformas:

Windows: https://www.nuget.org/packages/IronOcr
Linux: https://www.nuget.org/packages/IronOcr.Linux
MacOs: https://www.nuget.org/packages/IronOcr.MacOs
MacOs ARM https://www.nuget.org/packages/IronOcr.MacOs.ARM

IronOCR con Tesseract 5

El siguiente ejemplo de código muestra lo fácil que es utilizar IronOCR Tesseract para leer texto de una imagen y realizar OCR utilizando C#.

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text

Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text

$vbLabelText $csharpLabel

Si desea un código más robusto, entonces lo siguiente debería ayudarle a lograr la misma tarea:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

Imagen de entrada

Ejemplo de imagen de entrada para el tratamiento IronOCR

Imagen de salida

La salida se imprime en la consola como:

La consola devuelta por la ejecución de IronOCR en la imagen de muestra.

¿Por qué elegir IronOCR?

IronOCR es muy fácil de instalar. Proporciona una biblioteca de software .NET completa y bien documentada.

IronOCR logra una tasa de precisión en la detección de texto del 99.8% sin la necesidad de otras bibliotecas de terceros o servicios web.

También ofrece soporte multihilo. Y lo que es más importante, IronOCR puede trabajar con más de 125 idiomas internacionales.

para sus próximos proyectos de OCR y vea sus capacidades completas por usted mismo. Una ofrece acceso gratuito y sin restricciones a las capacidades completas de IronOCR durante 30 días.

Conclusión

En este tutorial, aprendimos a descargar e instalar Tesseract OCR para máquinas Windows. Tesseract OCR es un excelente software para desarrolladores C++ pero sin embargo tiene algunas limitaciones. No está totalmente desarrollado para .NET. Los archivos de imagen escaneados o las imágenes fotografiadas deben procesarse y normalizarse a alta resolución, manteniéndolos libres de ruido digital. Sólo entonces, Tesseract podrá trabajar con ellas con precisión.

En cambio, IronOCR puede trabajar con cualquier imagen, ya sea escaneada o fotografiada, con una sola línea de código. IronOCR también utiliza Tesseract como su motor interno de OCR, pero está muy finamente ajustado para obtener lo mejor de Tesseract especialmente construido para C#, con un alto rendimiento y características mejoradas.

Puede descargar el producto de software IronOCR desde este enlace.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
Herramientas OCR de Microsoft (alternativas en C#)

SIGUIENTE >
OCR a partir de PDF (herramientas en línea gratuitas)