HERRAMIENTAS OCR

Instalar Tesseract (Tutorial paso a paso con imágenes)

Publicado en 27 de enero, 2023
Compartir:

¿Qué es Tesseract OCR?

Tesseract es una biblioteca de software de código abierto, publicada bajo licencia Apache. Fue desarrollado originalmente por Hewlett Packard en la década de 1980. Es una herramienta de reconocimiento de texto que se utiliza principalmente para identificar y extraer textos de imágenes. Tesseract OCR proporciona una interfaz de símbolo del sistema para realizar esta función.

Cómo descargar Tesseract OCR en Windows

  1. Descargar el instalador de Tesseract para Windows

  2. Instalar Tesseract OCR

  3. Añada la ruta de instalación a las variables de entorno

  4. Ejecutar Tesseract OCR

1. Descargar el instalador de Tesseract para Windows

Para utilizar el comando Tesseract en Windows, primero necesitamos descargar los binarios .exe Windows Installer de Tesseract OCR.

Hay muchos sitios donde se puede descargar la última versión de Tesseract OCR. Una vez que tal lugar es de UB Mannheimque se deriva de tesseract-ocr/tesseract (Repositorio principal).

Instalar Tesseract, Figura 1: Tesseract Wiki

Tesseract Wiki

Descargar el tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bits) Instalador de Windows.

Tesseract puede instalarse en Python prompt en macOS utilizando cualquiera de los comandos siguientes:

brew install tesseract
sudo port install tesseract

2. Instalar Tesseract OCR

A continuación, instalaremos Tesseract utilizando el archivo .exe que descargamos en el paso anterior. Ejecuta el instalador .exe para iniciar la instalación de Tesseract.

Idioma del instalador

Una vez finalizado el desempaquetado de la instalación, aparecerá el cuadro de diálogo de datos de idioma del instalador. Puede instalar Tesseract para utilizar varios idiomas seleccionando paquetes de idiomas adicionales, pero aquí sólo instalaremos los datos de idioma para el idioma inglés.

Instalar Tesseract, Figura 2: Instalador de Tesseract

Instalador de Tesseract

Haga clic en OK y el idioma del instalador para Tesseract OCR está configurado.

Configuración de Tesseract OCR

A continuación, aparecerá el asistente de configuración. Este asistente de instalación guiará la instalación de Tesseract para Windows.

Instalar Tesseract, Figura 3: Tesseract OCR

Asistente de configuración de Tesseract OCR

Haga clic en Siguiente para continuar con la instalación.

Aceptar el Acuerdo de Licencia

Tesseract OCR está licenciado bajo Apache License Version 2.0. Al ser de código abierto y de uso libre, puede redistribuir y modificar versiones de Tesseract sin problemas de lealtad.

Instalar Tesseract, Figura 4: Licencia de Tesseract

Tesseract OCR está licenciado bajo Apache License v2.0. Por favor, acepte esta licencia para continuar con la instalación.

Haga clic en Acepto para proceder a la instalación.

Elegir usuarios

Puede elegir instalar Tesseract para varios usuarios o para un solo usuario.

Instalar Tesseract, Figura 5: Tesseract Choose Users

Elija instalar Tesseract OCR para el usuario actual (usted) o para todas las cuentas de usuario.

Haga clic en Siguiente para elegir los componentes que desea instalar con Tesseract.

Elegir componentes

De la lista de componentes a instalar, ScrollView, Herramientas de formación, Creación de accesos directos y Datos de idioma están seleccionados por defecto. Mantendremos todas las opciones seleccionadas por defecto. Puede elegir u omitir cualquier componente en función de sus necesidades. Por lo general, es necesario instalarlos todos.

Instalar Tesseract, Figura 6: Componentes de Tesseract

Aquí, puede elegir incluir o excluir los componentes de Tesseract OCR. Para obtener los mejores resultados, continúe la instalación con los componentes por defecto seleccionados.

Haga clic en Siguiente para elegir la ubicación de instalación.

Elija el lugar de instalación

A continuación, elegiremos la ubicación para instalar Tesseract. Asegúrese de copiar la ruta de la carpeta de destino. Lo necesitaremos más adelante para añadir la ubicación de la instalación a la Variable de entorno de la ruta de la máquina.

Instalar Tesseract, Figura 7: Ubicación de instalación de Tesseract

Seleccione una ubicación de instalación para la biblioteca Tesseract OCR y recuérdela para más tarde.

Haga clic en Siguiente para seguir configurando la instalación de Tesseract.

Elija la carpeta del menú Inicio

Este es el último paso en el que crearemos accesos directos en el menú Inicio. Puedes ponerle el nombre que quieras a la carpeta, pero yo lo he dejado igual que por defecto.

Instalar Tesseract, Figura 8: Menú de inicio de Tesseract

Elija el nombre de la carpeta del menú Inicio de Tesseract OCR

Ahora, haga clic en Instalar y espere a que finalice la instalación. Una vez realizada la instalación, aparecerá la siguiente pantalla. Haga clic en Finalizar y habremos terminado con éxito la instalación de Tesseract OCR en Windows.

Instalar Tesseract, Figura 9: Instalador de Tesseract

La instalación de Tesseract OCR ha finalizado.

3. Añada la ruta de instalación a las variables de entorno del sistema

Ahora, añadiremos la ruta de instalación de Tesseract a las variables de entorno de Windows.

En el menú Inicio, escriba "variables de entorno" o "configuración avanzada del sistema".

Instalar Tesseract, Figura 10: Variables de ruta del sistema

Cuadro de diálogo Propiedades del sistema de Windows

Propiedades del sistema

Cuando se abra el cuadro de diálogo Propiedades del sistema, haga clic en Avanzadas y, a continuación, en el botón Variables de entorno, situado en la parte inferior derecha de la pantalla.

Aparecerá el cuadro de diálogo Variables de entorno.

Variables de entorno

En Variables del sistema, haga clic en la variable Ruta.

Instalar Tesseract, Figura 11: Variables de entorno

Acceso a las variables de entorno del sistema de Windows

Ahora, haga clic en Editar.

Añadir el directorio de instalación de Tesseract OCR para Windows a las variables de entorno

En el cuadro de diálogo Editar variable de entorno, haga clic en Nuevo. Pegue la ruta de ubicación de la instalación que se copió durante el segundo paso y haga clic en Aceptar.

Instalar Tesseract, Figura 12: Editar variable de entorno

Edite la variable de entorno del sistema Path de Windows añadiendo una entrada que incluya la ruta absoluta a la instalación de Tesseract OCR

Ya está.! Hemos descargado, instalado y configurado correctamente la variable de entorno para Tesseract OCR en una máquina Windows.

4. Ejecutar Tesseract OCR

Para comprobar que Tesseract OCR para Windows se ha instalado correctamente y se ha añadido a las variables de entorno, abra la línea de comandos(cmd) en tu máquina Windows, luego ejecuta el comando "tesseract ". Si todo ha funcionado correctamente, se debe mostrar una guía de uso con una explicación rápida del OCR y de las opciones individuales, como la versión de Tesseract.

Instalar Tesseract, Figura 13: Editar la variable de entorno

Ejecute el tesseract en la línea de comandos de Windows (o Windows Powershell) para asegurarse de que los pasos de instalación anteriores se han realizado correctamente. La salida de la consola es el resultado esperado de una instalación correcta de Windows.

Enhorabuena! Hemos instalado correctamente Tesseract OCR para Windows.

Biblioteca IronOCR

IronOCR es una biblioteca C# basada en Tesseract que permite a los desarrolladores de software .NET identificar y extraer texto de imágenes y documentos PDF. Está construido íntegramente en .NET, utilizando el motor Tesseract más avanzado que se conoce.

Instalación con el gestor de paquetes NuGet

Instalar IronOCR en Visual Studio o utilizando la línea de comandos con el gestor de paquetes NuGet es muy sencillo. En Visual Studio, vaya a las opciones de menú con:

Herramientas > Gestor de paquetes NuGet > Consola del Gestor de paquetes

A continuación, en la línea de comandos, escriba el siguiente comando:

Install-Package IronOcr

Esto instalará IronOCR con facilidad y ahora podrá utilizarlo para extraer todo su potencial.

También puede descargar otros Paquetes NuGet de IronOCR para diferentes plataformas:

IronOCR con Tesseract 5

El siguiente ejemplo de código muestra lo fácil que es utilizar IronOCR Tesseract para leer texto de una imagen y realizar OCR utilizando C#.

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
VB   C#

Si desea un código más robusto, entonces lo siguiente debería ayudarle a lograr la misma tarea:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

Imagen de entrada

Instalar Tesseract, Figura 14: Imagen de entrada

Ejemplo de imagen de entrada para el tratamiento IronOCR

Imagen de salida

La salida se imprime en la consola como:

Instalar Tesseract, Figura 15: Imagen de salida

La consola devuelta por la ejecución de IronOCR en la imagen de muestra.

¿Por qué elegir IronOCR?

IronOCR es muy fácil de instalar. Proporciona una biblioteca de software .NET completa y bien documentada.

IronOCR alcanza una tasa de precisión en la detección de texto del 99,8%** sin necesidad de otras bibliotecas o servicios web de terceros.

También ofrece soporte multihilo. Y lo que es más importante, IronOCR puede trabajar con más de 125 idiomas internacionales.

Conclusión

En este tutorial, aprendimos a descargar e instalar Tesseract OCR para máquinas Windows. Tesseract OCR es un excelente software para desarrolladores C++ pero sin embargo tiene algunas limitaciones. No está totalmente desarrollado para .NET. Los archivos de imagen escaneados o las imágenes fotografiadas deben procesarse y normalizarse a alta resolución, manteniéndolos libres de ruido digital. Sólo entonces, Tesseract podrá trabajar con ellas con precisión.

En cambio, IronOCR puede trabajar con cualquier imagen, ya sea escaneada o fotografiada, con una sola línea de código. IronOCR también utiliza Tesseract como su motor interno de OCR, pero está muy finamente ajustado para obtener lo mejor de Tesseract especialmente construido para C#, con un alto rendimiento y características mejoradas.

Puede descargar el producto de software IronOCR desde aquíenlace.

< ANTERIOR
Herramientas OCR de Microsoft (alternativas en C#)
SIGUIENTE >
OCR a partir de PDF (herramientas en línea gratuitas)

¿Listo para empezar? Versión: 2024.11 acaba de salir

Descarga gratuita de NuGet Descargas totales: 2,698,613 Ver licencias >