Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Tesseract es una biblioteca de software de código abierto, publicada bajo licencia Apache. Fue desarrollado originalmente por Hewlett Packard en la década de 1980. Es una herramienta de reconocimiento de texto que se utiliza principalmente para identificar y extraer textos de imágenes. Tesseract OCR proporciona una interfaz de símbolo del sistema para realizar esta función.
Descargar el instalador de Tesseract para Windows
Instalar Tesseract OCR
Añada la ruta de instalación a las variables de entorno
Para utilizar el comando Tesseract en Windows, primero necesitamos descargar los binarios .exe Windows Installer de Tesseract OCR.
Hay muchos sitios donde se puede descargar la última versión de Tesseract OCR. Una vez que tal lugar es de UB Mannheimque se deriva de tesseract-ocr/tesseract (Repositorio principal).
Descargar el tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bits) Instalador de Windows.
Tesseract puede instalarse en Python prompt en macOS utilizando cualquiera de los comandos siguientes:
brew install tesseract
sudo port install tesseract
A continuación, instalaremos Tesseract utilizando el archivo .exe que descargamos en el paso anterior. Ejecuta el instalador .exe para iniciar la instalación de Tesseract.
Una vez finalizado el desempaquetado de la instalación, aparecerá el cuadro de diálogo de datos de idioma del instalador. Puede instalar Tesseract para utilizar varios idiomas seleccionando paquetes de idiomas adicionales, pero aquí sólo instalaremos los datos de idioma para el idioma inglés.
Haga clic en OK y el idioma del instalador para Tesseract OCR está configurado.
A continuación, aparecerá el asistente de configuración. Este asistente de instalación guiará la instalación de Tesseract para Windows.
Haga clic en Siguiente para continuar con la instalación.
Tesseract OCR está licenciado bajo Apache License Version 2.0. Al ser de código abierto y de uso libre, puede redistribuir y modificar versiones de Tesseract sin problemas de lealtad.
Haga clic en Acepto para proceder a la instalación.
Puede elegir instalar Tesseract para varios usuarios o para un solo usuario.
Haga clic en Siguiente para elegir los componentes que desea instalar con Tesseract.
De la lista de componentes a instalar, ScrollView, Herramientas de formación, Creación de accesos directos y Datos de idioma están seleccionados por defecto. Mantendremos todas las opciones seleccionadas por defecto. Puede elegir u omitir cualquier componente en función de sus necesidades. Por lo general, es necesario instalarlos todos.
Haga clic en Siguiente para elegir la ubicación de instalación.
A continuación, elegiremos la ubicación para instalar Tesseract. Asegúrese de copiar la ruta de la carpeta de destino. Lo necesitaremos más adelante para añadir la ubicación de la instalación a la Variable de entorno de la ruta de la máquina.
Haga clic en Siguiente para seguir configurando la instalación de Tesseract.
Este es el último paso en el que crearemos accesos directos en el menú Inicio. Puedes ponerle el nombre que quieras a la carpeta, pero yo lo he dejado igual que por defecto.
Ahora, haga clic en Instalar y espere a que finalice la instalación. Una vez realizada la instalación, aparecerá la siguiente pantalla. Haga clic en Finalizar y habremos terminado con éxito la instalación de Tesseract OCR en Windows.
Ahora, añadiremos la ruta de instalación de Tesseract a las variables de entorno de Windows.
En el menú Inicio, escriba "variables de entorno" o "configuración avanzada del sistema".
Cuando se abra el cuadro de diálogo Propiedades del sistema, haga clic en Avanzadas y, a continuación, en el botón Variables de entorno, situado en la parte inferior derecha de la pantalla.
Aparecerá el cuadro de diálogo Variables de entorno.
En Variables del sistema, haga clic en la variable Ruta.
Ahora, haga clic en Editar.
En el cuadro de diálogo Editar variable de entorno, haga clic en Nuevo. Pegue la ruta de ubicación de la instalación que se copió durante el segundo paso y haga clic en Aceptar.
Ya está.! Hemos descargado, instalado y configurado correctamente la variable de entorno para Tesseract OCR en una máquina Windows.
Para comprobar que Tesseract OCR para Windows se ha instalado correctamente y se ha añadido a las variables de entorno, abra la línea de comandos(cmd) en tu máquina Windows, luego ejecuta el comando "tesseract ". Si todo ha funcionado correctamente, se debe mostrar una guía de uso con una explicación rápida del OCR y de las opciones individuales, como la versión de Tesseract.
Enhorabuena! Hemos instalado correctamente Tesseract OCR para Windows.
IronOCR es una biblioteca C# basada en Tesseract que permite a los desarrolladores de software .NET identificar y extraer texto de imágenes y documentos PDF. Está construido íntegramente en .NET, utilizando el motor Tesseract más avanzado que se conoce.
Instalar IronOCR en Visual Studio o utilizando la línea de comandos con el gestor de paquetes NuGet es muy sencillo. En Visual Studio, vaya a las opciones de menú con:
Herramientas > Gestor de paquetes NuGet > Consola del Gestor de paquetes
A continuación, en la línea de comandos, escriba el siguiente comando:
Install-Package IronOcr
Esto instalará IronOCR con facilidad y ahora podrá utilizarlo para extraer todo su potencial.
También puede descargar otros Paquetes NuGet de IronOCR para diferentes plataformas:
El siguiente ejemplo de código muestra lo fácil que es utilizar IronOCR Tesseract para leer texto de una imagen y realizar OCR utilizando C#.
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
Si desea un código más robusto, entonces lo siguiente debería ayudarle a lograr la misma tarea:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
La salida se imprime en la consola como:
IronOCR es muy fácil de instalar. Proporciona una biblioteca de software .NET completa y bien documentada.
IronOCR alcanza una tasa de precisión en la detección de texto del 99,8%** sin necesidad de otras bibliotecas o servicios web de terceros.
También ofrece soporte multihilo. Y lo que es más importante, IronOCR puede trabajar con más de 125 idiomas internacionales.
En este tutorial, aprendimos a descargar e instalar Tesseract OCR para máquinas Windows. Tesseract OCR es un excelente software para desarrolladores C++ pero sin embargo tiene algunas limitaciones. No está totalmente desarrollado para .NET. Los archivos de imagen escaneados o las imágenes fotografiadas deben procesarse y normalizarse a alta resolución, manteniéndolos libres de ruido digital. Sólo entonces, Tesseract podrá trabajar con ellas con precisión.
En cambio, IronOCR puede trabajar con cualquier imagen, ya sea escaneada o fotografiada, con una sola línea de código. IronOCR también utiliza Tesseract como su motor interno de OCR, pero está muy finamente ajustado para obtener lo mejor de Tesseract especialmente construido para C#, con un alto rendimiento y características mejoradas.
Puede descargar el producto de software IronOCR desde aquíenlace.
9 productos API .NET para sus documentos de oficina