HERRAMIENTAS OCR

Tesseract Ocr en Windows (Tutorial de ejemplo de código)

Actualizado 7 de abril, 2022
Compartir:

¿Qué es Tesseract OCR?

Tesseract es un motor de reconocimiento óptico de caracteres que puede utilizarse en diversos sistemas operativos. Es un software libre, publicado bajo la Licencia Apache. En esta guía, te llevaré a través de los pasos que seguí para instalar Tesseract en mi máquina Windows 10. La versión principal 5 es la versión estable actual y comenzó con el lanzamiento 5.0. 0 el 30 de noviembre de 2021.


Paso 1: Instalar Tesseract OCR en Windows 10 usando el archivo .exe:

Para instalar los datos lingüísticos: sudo port install tesseract -<langcode> Encontrará una lista de códigos de idioma en la página Homebrew de MacPorts Tesseract. El primer paso para instalar Tesseract OCR para Windows es descargar el instalador .exe correspondiente al sistema operativo de su máquina

Paso 2: Configurar la instalación

A continuación, tendremos que configurar la instalación de Tesseract. Si se siente confiado y sólo desea ejecutar Tesseract OCR para Windows con el idioma predeterminado en inglés, ejecute las pantallas de instalación con todas las opciones predeterminadas seleccionadas.

Idioma del instalador

Éste es sólo el idioma para los cuadros de diálogo y la información de ayuda. Si lo deseamos, podemos ejecutar Tesseract OCR para Windows en varios idiomas:

Idioma de instalación de Tesseract OCR para Windows

Configuración de Tesseract OCR

La pantalla de instalación recomienda cerrar todas las demás aplicaciones antes de continuar con la instalación.

Pantalla de instalación de Tesseract OCR para Windows.

Elija el lugar de instalación

A continuación, elegiremos el lugar de instalación. Antes de continuar con el siguiente paso, asegúrese de copiar la ubicación de instalación en un archivo .txt. Tendremos que añadir la ubicación de la instalación a las variables de entorno de nuestra máquina una vez finalizada la instalación.

Elija el lugar de instalación.

Elegir componentes

Por defecto, los datos de ScrollView, Herramientas de formación, Creación de accesos directos e Idioma están seleccionados. A menos que tenga una razón específica para no instalarlos, querremos mantenerlos todos seleccionados.

Componentes predeterminados de instalación de Tesseract OCR para Windows.

Si nos desplazamos hacia abajo y ampliamos "Datos de script adicionales", veremos que tenemos la opción de descargar e instalar datos de script adicionales. Esto puede ser útil para mejorar la precisión de la extracción de texto a partir de ciertos idiomas con scripts. Depende de ti si quieres instalarlos.

Componentes opcionales de instalación del script.

Elija la carpeta del menú Inicio

En el último paso de la instalación, se nos pedirá que elijamos la carpeta del menú de inicio para los accesos directos de Tesseract OCR para Windows. Yo he dejado el mío con el nombre por defecto: 'Tesseract-OCR'.

Elija la carpeta del menú de inicio para los accesos directos de Tesseract OCR para Windows.

Después de hacer clic en instalar, Tesseract OCR para Windows comenzará a instalarse. Nuestro siguiente paso es añadir la ruta de instalación a las variables de entorno de nuestra máquina.

Paso 3: Añadir la ruta de instalación a las variables de entorno

Panel de control

Para añadir la ubicación de la instalación a nuestras variables de entorno, ve al menú Inicio y busca 'variables de entorno'. Debería ver un resultado para editar las variables de entorno del sistema. Si no lo tienes, siempre puedes seguir los siguientes pasos: Menú Inicio > Panel de control > Editar las variables de entorno del sistema.

Búsqueda de "variables de entorno

Propiedades del sistema

Cuando aparezca el cuadro de diálogo "Propiedades del sistema", asegúrese de hacer clic en la pestaña Avanzadas y, a continuación, en el botón Variables de entorno, situado en la parte inferior derecha de la pantalla.

Variables de entorno

En variables del sistema, haremos clic en el botón Editar.

Cuando aparezca la pantalla "Editar variable de entorno", haz clic en el botón Nuevo y pega la ruta de instalación de Tesseract OCR que copiamos anteriormente en el paso 2. Una vez hecho esto, haz clic en el botón "Aceptar".

Añadir el directorio de instalación de Tesseract OCR para Windows a las variables de entorno

Ya está.! Ahora que hemos ejecutado el instalador .exe y añadido la ubicación de instalación de Tesseract OCR para Windows a nuestras variables de entorno, podemos comprobar que nuestra instalación funciona ejecutando Tesseract en una imagen de prueba.

Paso 4: Ejecutar Tesseract OCR para Windows en una imagen de prueba

Para comprobar que Tesseract OCR para Windows se ha instalado correctamente, abra el símbolo del sistema en su equipo y ejecute el comando Tesseract. Debería ver una salida con una rápida explicación de las opciones de uso de Tesseract.

Comprobación de la instalación correcta de Tesseract OCR para Windows

Enhorabuena! Ha instalado correctamente Tesseract OCR para Windows en su equipo.


Ventajas de utilizar IronOCR para realizar trabajos de OCR:

IronOCR proporciona Tesseract OCR en Mac, Windows, Linux, Azure y Docker para:

  • .NET Framework 4.0 +
  • .NET Estándar 2.0 +
  • .NET Core 2.0 +
  • .NET 5
  • Mono para macOS y Linux
  • Xamarin para macOS

    IronOCR lee texto, códigos de barras y códigos QR de los principales formatos de imagen y PDF utilizando el último motor Tesseract 5. Esta biblioteca añade funcionalidad OCR a aplicaciones de escritorio, consola y web en cuestión de minutos. Admite más de 127 idiomas internacionales. Licencias empezar desde $599.

Paso 1: Instalar la última versión de IronOCR

Instalar DLL

Descargar el IronOcr DLL directamente a su máquina.

Instalar NuGet

También puede instalarlo a través de NuGet.

Install-Package IronOcr

Paso 2: Aplique su clave de licencia

Establezca su clave de licencia IronOCR utilizando el código

Añada este código al inicio de su aplicación antes de utilizar IronOCR.

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
VB   C#

Paso 3: Pruebe su llave

Compruebe si la llave se ha instalado correctamente.

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")
VB   C#

Empezar el proyecto

//  PM > Install-Package IronOcr
//  utilizando IronOcr;

var Ocr = new IronTesseract();

//  Cientos de idiomas disponibles
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   //  Input.DeNoise(); opcional
   //  Input.Deskew(); opcional

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   //  Explorar el OcrResult usando IntelliSense
}
//  PM > Install-Package IronOcr
//  utilizando IronOcr;

var Ocr = new IronTesseract();

//  Cientos de idiomas disponibles
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   //  Input.DeNoise(); opcional
   //  Input.Deskew(); opcional

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   //  Explorar el OcrResult usando IntelliSense
}
'  PM > Install-Package IronOcr
'  utilizando IronOcr;

Dim Ocr = New IronTesseract()

'  Cientos de idiomas disponibles
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' '  Explorar el OcrResult usando IntelliSense
End Using
VB   C#

¿Cómo utilizar Tesseract OCR en C# para .NET?

  • Instalación de Google Tesseract e IronOCR for .NET en Visual Studio
  • Consulta las últimas versiones en C#
  • Revisar la precisión y la compatibilidad de las imágenes
  • Pruebas de rendimiento y funcionamiento de la API
  • Soporte multilingüe

Ejemplo de código para .NET OCR Uso - Extraer texto de imágenes en C#

Utilice NuGet Package Manager para instalar el paquete NuGet IronOCR en su solución de Visual Studio.

//  PM > Install-Package IronOcr
//  utilizando IronOcr;

var Ocr = new IronTesseract();

//  Cientos de idiomas disponibles
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   //  Input.DeNoise(); opcional
   //  Input.Deskew(); opcional

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   //  Explorar el OcrResult usando IntelliSense
}
//  PM > Install-Package IronOcr
//  utilizando IronOcr;

var Ocr = new IronTesseract();

//  Cientos de idiomas disponibles
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   //  Input.DeNoise(); opcional
   //  Input.Deskew(); opcional

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   //  Explorar el OcrResult usando IntelliSense
}
'  PM > Install-Package IronOcr
'  utilizando IronOcr;

Dim Ocr = New IronTesseract()

'  Cientos de idiomas disponibles
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' '  Explorar el OcrResult usando IntelliSense
End Using
VB   C#

IronOCR Tesseract para C#

Con IronOCR, toda la instalación de Tesseract se realiza íntegramente mediante el gestor de paquetes NuGet.

Install-Package IronOcr

API de Tesseract 5 en IronOCR Tesseract

Hasta la fecha, IronTesseract es la única implementación conocida de Tesseract 5 para .NET Framework o Core.

//  utilizando IronOcr;

var Ocr = new IronTesseract(); //  nada que configurar

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
//  utilizando IronOcr;

var Ocr = new IronTesseract(); //  nada que configurar

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
'  utilizando IronOcr;

Dim Ocr = New IronTesseract() '  nada que configurar

Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using
VB   C#

API de Tesseract 4 en IronOCR Tesseract

//  utilizando IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
//  utilizando IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
'  utilizando IronOcr;

Dim Ocr = New IronTesseract()

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4

Using Input = New OcrInput("images\image.png")


Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using
VB   C#

Por qué IronOCR es mejor que Tesseract:

PRECISIÓN

TESSERACT:

Si Tesseract encuentra una imagen girada, sesgada, con un DPI bajo, escaneada o con ruido de fondo, le resultará casi imposible obtener datos de esa imagen. Además, Tesseract también tardará mucho tiempo en procesar ese documento antes de proporcionarle información sin sentido.

IRONOCR:

IronOCR elimina este quebradero de cabeza. Los usuarios suelen alcanzar una precisión del 99,8-100% con una configuración mínima.

COMPATIBILIDAD DE IMÁGENES

TESSERACT:

Sólo acepta el formato de imagen Leptonica PIX que es un objeto IntPtr C++ en C#. Los objetos PIX no son memoria gestionada - y si no se manejan con cuidado en C# se producen fugas de memoria.

IRONOCR:

Las imágenes se gestionan en memoria. Compatible con PDF y Tiff. Sistema. Dibujo, Flujo y Matriz de bytes se incluyen para cada formato de archivo.

**Amplio soporte de imágenes

  • Documentos PDF
  • Páginas PDF
  • Archivos TIFF MultiFrame
  • JPEG Y JPEG2000
  • GIF
  • PNG
  • System.Drawing.Image
  • Imagen binaria Datos (byte [])
  • Y muchos más...

RENDIMIENTO

TESSERACT:

Google Tesseract puede ofrecer resultados rápidos y precisos si se ajusta correctamente y las imágenes de entrada se han preprocesado con Photoshop o ImageMagick.

IRONOCR:

IronOcr .NET Tesseract DLL funciona con precisión y velocidad para la mayoría de las imágenes. Hemos implementado el multithreading para aprovechar los procesadores multinúcleo que utilizan ahora la mayoría de las máquinas. Incluso las imágenes de baja resolución suelen funcionar con un alto grado de precisión en su programa. No necesita PhotoShop.

API

TESSERACT:

Tenemos dos opciones libres:

  • Trabajar con capas Interop - muchas de las que se encuentran en GitHub están desactualizadas, tienen tickets sin resolver, fugas de memoria y advertencias de la Consola. Puede no ser compatible con .NET Core o Standard.
  • Trabajar con la línea de comandos EXE - difícil de desplegar y constantemente interrumpido por los escáneres de virus y las políticas de seguridad.

IRONOCR:

Una librería .NET gestionada y probada para Tesseract llamada IronTesseract.

Totalmente documentado con soporte IntelliSense.

IDIOMA

TESSERACT:

Sólo admite 100 idiomas.

IRONOCR:

Compatible con más de 127 idiomas.


Conclusión

Tesseract es un excelente recurso para desarrolladores C++, pero no es una biblioteca OCR completa para .NET. Las imágenes escaneadas o fotografiadas deben procesarse para que sean ortogonales, normalizadas, de alta resolución y libres de ruido digital antes de que Tesseract pueda trabajar con ellas con precisión.

En cambio, IronOCR puede hacer esto y mucho más, con una sola línea de código. Es cierto que IronOCR utiliza Tesseract por su motor interno de OCR, un Tesseract muy perfeccionado, construido para C#, con muchas mejoras de rendimiento y funciones añadidas de serie.

< ANTERIOR
Conversor OCR en línea - Herramientas en línea gratuitas
SIGUIENTE >
OCR en Windows 11 (Herramientas en línea gratuitas)

¿Listo para empezar? Versión: 2024.7 recién publicada

Descarga gratuita de NuGet Descargas totales: 2,012,139 Ver licencias >
123