Saltar al pie de página
HERRAMIENTAS OCR
Cómo instalar Tesseract OCR en Windows en C#

Instalar Tesseract (Tutorial paso a paso con imágenes)

¿Qué es Tesseract OCR?

Tesseract es una biblioteca de software de código abierto, lanzada bajo el acuerdo de licencia de Apache. Originalmente fue desarrollado por Hewlett Packard en la década de 1980. Es una herramienta de reconocimiento de texto utilizada principalmente para identificar y extraer textos de imágenes. Tesseract OCR proporciona una interfaz de línea de comando para realizar esta funcionalidad.

Cómo descargar Tesseract OCR en Windows

  1. Descargue el Instalador de Tesseract para Windows
  2. Instale Tesseract OCR
  3. Agregue la ruta de instalación a las Variables de Entorno
  4. Ejecute Tesseract OCR

1. Descargue el instalador de Tesseract para Windows

Para utilizar el comando Tesseract en Windows, primero necesitamos descargar los binarios de Tesseract OCR .exe Instalador de Windows.

Hay muchos lugares donde puede descargar la última versión de Tesseract OCR. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Install Tesseract, Figure 1: Wiki del Teseracto

Wiki del Teseracto

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

Para los usuarios de macOS, Tesseract se puede instalar en el terminal usando cualquiera de los comandos a continuación:

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Instalar Tesseract OCR

A continuación, instalaremos Tesseract usando el archivo .exe que descargamos en el paso anterior. Inicie el instalador .exe para comenzar la instalación de Tesseract.

Idioma del instalador

Una vez que se complete la descompresión de la configuración, aparecerá el diálogo de datos de idioma del instalador. Puede instalar Tesseract para usar múltiples idiomas seleccionando paquetes de idioma adicionales, pero aquí solo instalaremos los datos de idioma para el inglés.

Install Tesseract, Figure 2: Instalador de Tesseract

Instalador de Tesseract

Haga clic en Aceptar, y se establece el idioma del instalador para Tesseract OCR.

Configuración de OCR de Tesseract

Aparecerá el asistente de configuración. Este Asistente de Configuración guiará la instalación de Tesseract para Windows.

Install Tesseract, Figure 3: Tesseract OCR

Asistente de configuración de OCR de Tesseract

Haga clic en Siguiente para continuar con la instalación.

Aceptar el acuerdo de licencia

Tesseract OCR está licenciado bajo la Licencia Apache Versión 2.0. Como es de código abierto y libre de usar, puede redistribuir y modificar versiones de Tesseract sin preocupaciones de regalías.

Install Tesseract, Figure 4: Tesseract License

Tesseract OCR tiene licencia Apache v2.0. Acepte esta licencia para continuar con la instalación.

Haga clic en Acepto para proceder a la instalación.

Seleccionar usuarios

Puede elegir instalar Tesseract para múltiples usuarios o para un solo usuario.

Install Tesseract, Figure 5: Tesseract Choose Users

Elija instalar Tesseract OCR para el usuario actual (usted) o para todas las cuentas de usuario

Haga clic en Siguiente para elegir los componentes a instalar con Tesseract.

Elegir componentes

Del listado de componentes a instalar, ScrollView, Herramientas de Entrenamiento, Creación de Atajos y Datos de Idioma están seleccionados por defecto. Mantendremos todas las opciones seleccionadas por defecto. Puede elegir cualquier componente o omitir cualquiera basado en sus necesidades. Usualmente, todos son necesarios para instalar.

Install Tesseract, Figure 6: Tesseract Components

Aquí puede elegir si desea incluir o excluir los componentes de OCR de Tesseract. Para obtener los mejores resultados, continúe la instalación con los componentes predeterminados seleccionados.

Haga clic en Siguiente para elegir la ubicación de instalación.

Elija la ubicación de la instalación

A continuación, elegiremos la ubicación para instalar Tesseract. Asegúrese de copiar la ruta de la carpeta de destino. Necesitaremos esto más tarde para agregar la ubicación de instalación a la Variable de Entorno del sistema.

Install Tesseract, Figure 7: Tesseract Install Location

Seleccione una ubicación de instalación para la biblioteca OCR Tesseract y recuerde esta ubicación para más adelante.

Haga clic en Siguiente para configurar más la instalación de Tesseract.

Seleccione la carpeta del menú Inicio

Este es el último paso en el que crearemos accesos directos en el Menú de Inicio. Puede nombrar la carpeta de cualquier manera, pero la he mantenido igual que la predeterminada.

Install Tesseract, Figure 8: Tesseract Start Menu

Elija el nombre de la carpeta del menú Inicio de Tesseract OCR

Ahora, haga clic en Instalar y espere a que la instalación se complete. Una vez que la instalación haya terminado, aparecerá la siguiente pantalla. Haga clic en Finalizar, y habremos terminado de instalar Tesseract OCR en Windows con éxito.

Install Tesseract, Figure 9: Instalador de Tesseract

La instalación de Tesseract OCR ahora está completa.

3. Agregar ruta de instalación a las variables de entorno del sistema

Ahora, agregaremos la ruta de instalación de Tesseract a las Variables de Entorno de Windows.

En el Menú de Inicio, escriba "variables de entorno" o "configuración avanzada del sistema"

Install Tesseract, Figure 10: System Path Variables

El cuadro de diálogo Propiedades del sistema de Windows

Propiedades del sistema

Una vez que el cuadro de diálogo de Propiedades del Sistema se abra, haga clic en la pestaña Avanzado, y luego haga clic en el botón Variables de Entorno, ubicado hacia la parte inferior derecha de la pantalla.

Se le presentará el cuadro de diálogo de Variables de Entorno.

Variables de entorno

Bajo variables del sistema, haga clic en la variable Path.

Install Tesseract, Figure 11: Environment Variables

Acceder a las variables de entorno del sistema de Windows

Ahora, haga clic en Editar.

Agregar el directorio de instalación de Tesseract OCR para Windows a las variables de entorno

Desde el cuadro de diálogo Editar variable de entorno, haga clic en Nuevo. Pegue la ruta de la ubicación de instalación que se copió durante el segundo paso, y haga clic en Aceptar.

Install Tesseract, Figure 12: Edit Environment Variable

Edite la variable de entorno del sistema de ruta de Windows agregando una entrada que incluya la ruta absoluta a la instalación de Tesseract OCR

using IronPdf; Hemos descargado, instalado y configurado correctamente la variable de entorno de Tesseract OCR en la máquina Windows.

4. Ejecute Tesseract OCR

Para verificar que Tesseract OCR para Windows se instaló correctamente y se agregó a las Variables de Entorno, abra el Símbolo del Sistema (cmd) en su máquina Windows, luego ejecute el comando "tesseract". Si todo funcionó bien, entonces debe mostrarse una guía rápida de uso con opciones únicas de OCR y otras como la versión de Tesseract.

Install Tesseract, Figure 13: Edit Environment Variable

Ejecute el comando tesseract en la línea de comandos de Windows (o Windows PowerShell) para comprobar que los pasos de instalación se realizaron correctamente. La salida de la consola es la esperada tras una instalación exitosa de Windows.

¡Felicitaciones! Hemos instalado con éxito Tesseract OCR para Windows.

Biblioteca IronOCR

IronOCR es una biblioteca de C# basada en Tesseract que permite a los desarrolladores de software .NET identificar y extraer texto de imágenes y documentos PDF. Está completamente construido en .NET, usando el motor Tesseract más avanzado conocido en cualquier lugar.

Instalar con el Administrador de paquetes NuGet

Instalar IronOCR en Visual Studio o usando la Línea de Comandos con el Administrador de Paquetes de NuGet es sencillo. En Visual Studio, navegue a las opciones del Menú con:

Herramientas > Administrador de Paquetes NuGet > Consola

Luego en la Línea de Comandos, escriba el siguiente comando:

Install-Package IronOcr

Esto instalará IronOCR con facilidad, y ahora puede usarlo para extraer su máximo potencial.

También puede descargar otros Paquetes NuGet de IronOCR para diferentes plataformas:

IronOCR con Tesseract 5

El siguiente código de ejemplo muestra lo fácil que es usar IronOCR Tesseract para leer texto de una imagen y realizar OCR usando C#.

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text

' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
$vbLabelText   $csharpLabel

Si desea un código más robusto, entonces lo siguiente debería ayudarle a lograr la misma tarea:

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
	' Add an image to the input collection
	Input.AddImage("test-files/redacted-employmentapp.png")
	' You can add any number of images

	' Read the OCR text from the input
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Imagen de entrada

Install Tesseract, Figure 14: Input Image

Imagen de entrada de muestra para el procesamiento IronOCR

Imagen de salida

La salida se imprime en la Consola como:

Install Tesseract, Figure 15: Output Image

La consola regresó de la ejecución de IronOCR en la imagen de muestra.

¿Por qué elegir IronOCR?

IronOCR es muy fácil de instalar. Proporciona una biblioteca de software .NET completa y bien documentada.

IronOCR logra una tasa de precisión de detección de texto del 99.8% sin la necesidad de otras bibliotecas de terceros o servicios web.

También proporciona soporte para multihilos. Lo más importante, IronOCR puede trabajar con más de 125 idiomas internacionales.

Conclusión

En este tutorial, aprendimos cómo descargar e instalar Tesseract OCR para una máquina Windows. Tesseract OCR es un excelente software para desarrolladores de C++, pero tiene algunas limitaciones. No está totalmente desarrollado para .NET. Los archivos de imagen escaneados o las imágenes fotografiadas deben procesarse y estandarizarse a alta resolución, manteniéndolos libres de ruido digital. Solo entonces Tesseract puede trabajar con precisión sobre ellos.

En cambio, IronOCR puede trabajar con cualquier imagen proporcionada, ya sea escaneada o fotografiada, con solo una línea de código. IronOCR también utiliza Tesseract como su motor OCR interno, pero está finamente ajustado para obtener lo mejor de Tesseract, especialmente diseñado para C#, con alto rendimiento y características mejoradas.

Puede descargar el producto de software IronOCR desde este enlace.

Kannaopat Udonpant
Ingeniero de Software
Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...
Leer más