Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Tesseract es un motor de reconocimiento óptico de caracteres que puede utilizarse en diversos sistemas operativos. Es un software libre, publicado bajo la Licencia Apache. En esta guía, te llevaré a través de los pasos que seguí para instalar Tesseract en mi máquina Windows 10. La versión principal 5 es la versión estable actual y comenzó con el lanzamiento 5.0. 0 el 30 de noviembre de 2021.
Para instalar los datos lingüísticos: sudo port install tesseract -<langcode>
Encontrará una lista de códigos de idioma en la página Homebrew de MacPorts Tesseract. El primer paso para instalar Tesseract OCR para Windows es descargar el instalador .exe correspondiente al sistema operativo de su máquina
A continuación, tendremos que configurar la instalación de Tesseract. Si se siente confiado y sólo desea ejecutar Tesseract OCR para Windows con el idioma predeterminado en inglés, ejecute las pantallas de instalación con todas las opciones predeterminadas seleccionadas.
Éste es sólo el idioma para los cuadros de diálogo y la información de ayuda. Si lo deseamos, podemos ejecutar Tesseract OCR para Windows en varios idiomas:
Idioma de instalación de Tesseract OCR para Windows
La pantalla de instalación recomienda cerrar todas las demás aplicaciones antes de continuar con la instalación.
Pantalla de instalación de Tesseract OCR para Windows.
A continuación, elegiremos el lugar de instalación. Antes de continuar con el siguiente paso, asegúrese de copiar la ubicación de instalación en un archivo .txt. Tendremos que añadir la ubicación de la instalación a las variables de entorno de nuestra máquina una vez finalizada la instalación.
Elija el lugar de instalación.
Por defecto, los datos de ScrollView, Herramientas de formación, Creación de accesos directos e Idioma están seleccionados. A menos que tenga una razón específica para no instalarlos, querremos mantenerlos todos seleccionados.
Componentes predeterminados de instalación de Tesseract OCR para Windows.
Si nos desplazamos hacia abajo y ampliamos "Datos de script adicionales", veremos que tenemos la opción de descargar e instalar datos de script adicionales. Esto puede ser útil para mejorar la precisión de la extracción de texto a partir de ciertos idiomas con scripts. Depende de ti si quieres instalarlos.
Componentes opcionales de instalación del script.
En el último paso de la instalación, se nos pedirá que elijamos la carpeta del menú de inicio para los accesos directos de Tesseract OCR para Windows. Yo he dejado el mío con el nombre por defecto: 'Tesseract-OCR'.
Elija la carpeta del menú de inicio para los accesos directos de Tesseract OCR para Windows.
Después de hacer clic en instalar, Tesseract OCR para Windows comenzará a instalarse. Nuestro siguiente paso es añadir la ruta de instalación a las variables de entorno de nuestra máquina.
Para añadir la ubicación de la instalación a nuestras variables de entorno, ve al menú Inicio y busca 'variables de entorno'. Debería ver un resultado para editar las variables de entorno del sistema. Si no lo tienes, siempre puedes seguir los siguientes pasos: Menú Inicio > Panel de control > Editar las variables de entorno del sistema.
Búsqueda de "variables de entorno
Cuando aparezca el cuadro de diálogo "Propiedades del sistema", asegúrese de hacer clic en la pestaña Avanzadas y, a continuación, en el botón Variables de entorno, situado en la parte inferior derecha de la pantalla.
En variables del sistema, haremos clic en el botón Editar.
Cuando aparezca la pantalla "Editar variable de entorno", haz clic en el botón Nuevo y pega la ruta de instalación de Tesseract OCR que copiamos anteriormente en el paso 2. Una vez hecho esto, haz clic en el botón "Aceptar".
Ya está.! Ahora que hemos ejecutado el instalador .exe y añadido la ubicación de instalación de Tesseract OCR para Windows a nuestras variables de entorno, podemos comprobar que nuestra instalación funciona ejecutando Tesseract en una imagen de prueba.
Para comprobar que Tesseract OCR para Windows se ha instalado correctamente, abra el símbolo del sistema en su equipo y ejecute el comando Tesseract. Debería ver una salida con una rápida explicación de las opciones de uso de Tesseract.
Comprobación de la instalación correcta de Tesseract OCR para Windows
Enhorabuena! Ha instalado correctamente Tesseract OCR para Windows en su equipo.
IronOCR proporciona Tesseract OCR en Mac, Windows, Linux, Azure y Docker para:
Xamarin para macOS
IronOCR lee texto, códigos de barras y códigos QR de los principales formatos de imagen y PDF utilizando el último motor Tesseract 5. Esta biblioteca añade funcionalidad OCR a aplicaciones de escritorio, consola y web en cuestión de minutos. Admite más de 127 idiomas internacionales. Licencias empezar desde $599.
Descargar el IronOcr DLL directamente a su máquina.
También puede instalarlo a través de NuGet.
Install-Package IronOcr
Añada este código al inicio de su aplicación antes de utilizar IronOCR.
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
Compruebe si la llave se ha instalado correctamente.
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")
Empezar el proyecto
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
Utilice NuGet Package Manager para instalar el paquete NuGet IronOCR en su solución de Visual Studio.
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
Con IronOCR, toda la instalación de Tesseract se realiza íntegramente mediante el gestor de paquetes NuGet.
Install-Package IronOcr
Hasta la fecha, IronTesseract es la única implementación conocida de Tesseract 5 para .NET Framework o Core.
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Si Tesseract encuentra una imagen girada, sesgada, con un DPI bajo, escaneada o con ruido de fondo, le resultará casi imposible obtener datos de esa imagen. Además, Tesseract también tardará mucho tiempo en procesar ese documento antes de proporcionarle información sin sentido.
IronOCR elimina este quebradero de cabeza. Los usuarios suelen alcanzar una precisión del 99,8-100% con una configuración mínima.
Sólo acepta el formato de imagen Leptonica PIX que es un objeto IntPtr C++ en C#. Los objetos PIX no son memoria gestionada - y si no se manejan con cuidado en C# se producen fugas de memoria.
Las imágenes se gestionan en memoria. Compatible con PDF y Tiff. Sistema. Dibujo, Flujo y Matriz de bytes se incluyen para cada formato de archivo.
**Amplio soporte de imágenes
Google Tesseract puede ofrecer resultados rápidos y precisos si se ajusta correctamente y las imágenes de entrada se han preprocesado con Photoshop o ImageMagick.
IronOcr .NET Tesseract DLL funciona con precisión y velocidad para la mayoría de las imágenes. Hemos implementado el multithreading para aprovechar los procesadores multinúcleo que utilizan ahora la mayoría de las máquinas. Incluso las imágenes de baja resolución suelen funcionar con un alto grado de precisión en su programa. No necesita PhotoShop.
Tenemos dos opciones libres:
Una librería .NET gestionada y probada para Tesseract llamada IronTesseract.
Totalmente documentado con soporte IntelliSense.
Sólo admite 100 idiomas.
Compatible con más de 127 idiomas.
Tesseract es un excelente recurso para desarrolladores C++, pero no es una biblioteca OCR completa para .NET. Las imágenes escaneadas o fotografiadas deben procesarse para que sean ortogonales, normalizadas, de alta resolución y libres de ruido digital antes de que Tesseract pueda trabajar con ellas con precisión.
En cambio, IronOCR puede hacer esto y mucho más, con una sola línea de código. Es cierto que IronOCR utiliza Tesseract por su motor interno de OCR, un Tesseract muy perfeccionado, construido para C#, con muchas mejoras de rendimiento y funciones añadidas de serie.
9 productos API .NET para sus documentos de oficina