HERRAMIENTAS OCR

Tesseract Ocr en Windows (Tutorial de ejemplo de código)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

7 de abril, 2022

¿Qué es Tesseract OCR?

Tesseract es un motor de reconocimiento óptico de caracteres que puede utilizarse en diversos sistemas operativos. Es un software libre, publicado bajo la Licencia Apache. En esta guía, te llevaré a través de los pasos que seguí para instalar Tesseract en mi máquina Windows 10. La versión principal 5 es la versión estable actual y comenzó con el lanzamiento 5.0. 0 el 30 de noviembre de 2021.

Cómo utilizar Tesseract OCR en Windows

Instalar Tesseract OCR en Windows 10 usando el archivo .exe
Configure la instalación de Tesseract
Agregar la ruta de instalación a las variables de entorno
Ejecutar Tesseract OCR para Windows en una imagen de prueba
Utilice la biblioteca C# para APIs más intuitivas y métodos avanzados en Windows

Paso 1: Instalar Tesseract OCR en Windows 10 usando el archivo .exe:

Para instalar datos de idioma: sudo port install tesseract -<langcode> Una lista de códigos de idioma se encuentra en la página de Homebrew de Tesseract de MacPorts. El primer paso para instalar Tesseract OCR para Windows es descargar el instalador .exe correspondiente al sistema operativo de su máquina

Paso 2: Configurar la instalación

A continuación, tendremos que configurar la instalación de Tesseract. Si se siente confiado y sólo desea ejecutar Tesseract OCR para Windows con el idioma predeterminado en inglés, ejecute las pantallas de instalación con todas las opciones predeterminadas seleccionadas.

Idioma del instalador

Éste es sólo el idioma para los cuadros de diálogo y la información de ayuda. Si lo deseamos, podemos ejecutar Tesseract OCR para Windows en varios idiomas:

Idioma de instalación de Tesseract OCR para Windows

Configuración de Tesseract OCR

La pantalla de instalación recomienda cerrar todas las demás aplicaciones antes de continuar con la instalación.

Pantalla de instalación de Tesseract OCR para Windows.

Elija el lugar de instalación

A continuación, elegiremos el lugar de instalación. Antes de continuar con el siguiente paso, asegúrese de copiar la ubicación de instalación en un archivo .txt. Tendremos que añadir la ubicación de la instalación a las variables de entorno de nuestra máquina una vez finalizada la instalación.

Elija el lugar de instalación.

Elegir componentes

Por defecto, los datos de ScrollView, Herramientas de formación, Creación de accesos directos e Idioma están seleccionados. A menos que tenga una razón específica para no instalarlos, querremos mantenerlos todos seleccionados.

Componentes predeterminados de instalación de Tesseract OCR para Windows.

Si nos desplazamos hacia abajo y ampliamos "Datos de script adicionales", veremos que tenemos la opción de descargar e instalar datos de script adicionales. Esto puede ser útil para mejorar la precisión de la extracción de texto a partir de ciertos idiomas con scripts. Depende de ti si quieres instalarlos.

Componentes opcionales de instalación del script.

Elija la carpeta del menú Inicio

En el último paso de la instalación, se nos pedirá que elijamos la carpeta del menú de inicio para los accesos directos de Tesseract OCR para Windows. Yo he dejado el mío con el nombre por defecto: 'Tesseract-OCR'.

Elija la carpeta del menú de inicio para los accesos directos de Tesseract OCR para Windows.

Después de hacer clic en instalar, Tesseract OCR para Windows comenzará a instalarse. Nuestro siguiente paso es añadir la ruta de instalación a las variables de entorno de nuestra máquina.

Paso 3: Añadir la ruta de instalación a las variables de entorno

Panel de control

Para añadir la ubicación de la instalación a nuestras variables de entorno, ve al menú Inicio y busca 'variables de entorno'. Debería ver un resultado para editar las variables de entorno del sistema. Si no lo haces, siempre puedes utilizar los siguientes pasos: Menú de inicio > Panel de control > Editar las variables de entorno del sistema.

Búsqueda de "variables de entorno

Propiedades del sistema

Cuando aparezca el cuadro de diálogo "Propiedades del sistema", asegúrese de hacer clic en la pestaña Avanzadas y, a continuación, en el botón Variables de entorno, situado en la parte inferior derecha de la pantalla.

Variables de entorno

En las variables del sistema, haremos clic en el botón Editar.

Cuando se presente la pantalla de "Editar variable de entorno", haga clic en el botón Nuevo y pegue la ruta de instalación de Tesseract OCR que copiamos anteriormente en el Paso 2. Una vez que haya hecho esto, haga clic en el botón 'OK'.

Añadir el directorio de instalación de Tesseract OCR para Windows a las variables de entorno

¡Eso es todo! Ahora que hemos ejecutado el instalador .exe y añadido la ubicación de instalación de Tesseract OCR para Windows a nuestras variables de entorno, podemos comprobar que nuestra instalación funciona ejecutando Tesseract en una imagen de prueba.

Paso 4: Ejecutar Tesseract OCR para Windows en una imagen de prueba

Para verificar que Tesseract OCR para Windows se instaló correctamente, abre el símbolo del sistema en tu máquina y luego ejecuta el comando Tesseract. Debería ver una salida con una rápida explicación de las opciones de uso de Tesseract.

Comprobación de la instalación correcta de Tesseract OCR para Windows

¡Felicidades! Ha instalado correctamente Tesseract OCR para Windows en su equipo.

Ventajas de utilizar IronOCR para realizar trabajos de OCR:

IronOCR ofrece Tesseract OCR en Mac, Windows, Linux, Azure y Docker para:

.NET Framework 4.0 +
.NET Estándar 2.0 +
.NET Core 2.0 +
.NET 5
Mono para macOS y Linux
Xamarin para macOS

IronOCR lee texto, códigos de barras y códigos QR de los principales formatos de imagen y PDF utilizando el último motor Tesseract 5. Esta biblioteca añade funcionalidad OCR a aplicaciones de escritorio, consola y web en cuestión de minutos. Admite más de 127 idiomas internacionales. Licencias comienzan desde $749.

Paso 1: Instalar la última versión de IronOCR

Instalar DLL

Descarga el IronOcr DLL directamente en tu máquina.

Instalar NuGet

También puede instalarlo a través de NuGet.

Install-Package IronOcr

Paso 2: Aplique su clave de licencia

Establezca su clave de licencia IronOCR utilizando el código

Añada este código al inicio de su aplicación antes de utilizar IronOCR.

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"

$vbLabelText $csharpLabel

Paso 3: Pruebe su llave

Compruebe si la llave se ha instalado correctamente.

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")

$vbLabelText $csharpLabel

Empezar el proyecto

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}

' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using

$vbLabelText $csharpLabel

¿Cómo utilizar Tesseract OCR en C# para .NET?

Instalación de Google Tesseract e IronOCR for .NET en Visual Studio
Consulta las últimas versiones en C#
Revisar la precisión y la compatibilidad de las imágenes
Pruebas de rendimiento y funcionamiento de la API
Soporte multilingüe

Ejemplo de código para .NET OCR Uso - Extraer texto de imágenes en C#

Utilice NuGet Package Manager para instalar el paquete NuGet IronOCR en su solución de Visual Studio.

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}

' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using

$vbLabelText $csharpLabel

IronOCR Tesseract para C#

Con IronOCR, toda la instalación de Tesseract se realiza íntegramente mediante el gestor de paquetes NuGet.

Install-Package IronOcr

API de Tesseract 5 en IronOCR Tesseract

Hasta la fecha, IronTesseract es la única implementación conocida de Tesseract 5 para .NET Framework o Core.

// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}

// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}

' using IronOcr;

Dim Ocr = New IronTesseract() ' nothing to configure

Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using

$vbLabelText $csharpLabel

API de Tesseract 4 en IronOCR Tesseract

// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}

// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}

' using IronOcr;

Dim Ocr = New IronTesseract()

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4

Using Input = New OcrInput("images\image.png")


Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using

$vbLabelText $csharpLabel

Por qué IronOCR es mejor que Tesseract:

PRECISIÓN

TESSERACT:

Si Tesseract encuentra una imagen girada, sesgada, con un DPI bajo, escaneada o con ruido de fondo, le resultará casi imposible obtener datos de esa imagen. Además, Tesseract también tardará mucho tiempo en procesar ese documento antes de proporcionarle información sin sentido.

IRONOCR:

IronOCR elimina este quebradero de cabeza. Los usuarios suelen alcanzar una precisión del 99,8-100% con una configuración mínima.

COMPATIBILIDAD DE IMÁGENES

TESSERACT:

Sólo acepta el formato de imagen Leptonica PIX que es un objeto IntPtr C++ en C#. Los objetos PIX no son memoria gestionada - y si no se manejan con cuidado en C# se producen fugas de memoria.

IRONOCR:

Las imágenes se gestionan en memoria. Compatible con PDF y Tiff. Sistema. Dibujo, Flujo y Matriz de bytes se incluyen para cada formato de archivo.

Amplio soporte de imágenes:

Documentos PDF
Páginas PDF
Archivos TIFF MultiFrame
JPEG Y JPEG2000
GIF
PNG
System.Drawing.Image
Datos de imagen binaria (byte [])
Y muchos más...

RENDIMIENTO

TESSERACT:

Google Tesseract puede ofrecer resultados rápidos y precisos si se ajusta correctamente y las imágenes de entrada se han preprocesado con Photoshop o ImageMagick.

IRONOCR:

El DLL de Tesseract de IronOCR .NET funciona con precisión y rapidez para la mayoría de las imágenes sin necesidad de configuración adicional. Hemos implementado el multithreading para aprovechar los procesadores multinúcleo que utilizan ahora la mayoría de las máquinas. Incluso las imágenes de baja resolución suelen funcionar con un alto grado de precisión en su programa. No necesita PhotoShop.

API

TESSERACT:

Tenemos dos opciones libres:

Trabajar con capas Interop - muchas de las que se encuentran en GitHub están desactualizadas, tienen tickets sin resolver, fugas de memoria y advertencias de la Consola. Puede no ser compatible con .NET Core o Standard.
Trabajar con la línea de comandos EXE - difícil de desplegar y constantemente interrumpido por los escáneres de virus y las políticas de seguridad.

IRONOCR:

Una librería .NET gestionada y probada para Tesseract llamada IronTesseract.

Totalmente documentado con soporte IntelliSense.

IDIOMA

TESSERACT:

Sólo admite 100 idiomas.

IRONOCR:

Compatible con más de 127 idiomas.

Conclusión

Tesseract es un excelente recurso para desarrolladores C++, pero no es una biblioteca OCR completa para .NET. Las imágenes escaneadas o fotografiadas deben procesarse para que sean ortogonales, normalizadas, de alta resolución y libres de ruido digital antes de que Tesseract pueda trabajar con ellas con precisión.

En cambio, IronOCR puede hacer esto y mucho más, con una sola línea de código. Es cierto que IronOCR utiliza Tesseract para su motor OCR interno, un Tesseract muy afinado, construido para C#, con muchas mejoras de rendimiento y características añadidas como estándar.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
Conversor OCR en línea - Herramientas en línea gratuitas

SIGUIENTE >
OCR en Windows 11 (Herramientas en línea gratuitas)