Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
OCR - El reconocimiento óptico de caracteres permite detectar texto en archivos digitales. El ordenador siempre guarda los documentos en papel escaneados como archivos de imagen. Los datos de estos archivos de imagen no se pueden buscar, editar ni guardar en formato de texto con un editor de texto normal, ni siquiera con una aplicación de tratamiento de textos. El procesamiento OCR ayuda a convertir estas imágenes en texto legible por máquina para su posterior procesamiento por parte de sus usuarios.
En esta era moderna, los documentos que se comparten en Internet están en formato digital y, en su mayoría, en forma de PDF o imágenes. Hay un montón de recursos en línea que convierten la imagen en texto. Sin embargo, la mayoría de las empresas requieren esta funcionalidad en sus aplicaciones informáticas. Teniendo esto en cuenta, hay muchas bibliotecas que ofrecen soluciones de OCR para incrustar en aplicaciones de software.
En este artículo, vamos a comparar dos de las tecnologías OCR más populares para C#:
IronOCR para .NET es una biblioteca C# para escanear, buscar y leer imágenes y archivos PDF. Toma una imagen o un archivo PDF como entrada y utiliza el último motor OCR .NET personalizado Tesseract 5 para generar texto, datos estructurados o documentos PDF con capacidad de búsqueda. Su Tesseract está disponible en más de 125 idiomas junto con soporte multiplataforma en .NET Core, Standard, desde 2.0 hasta 7.
IronOCR es una API fácil de usar que permite a los desarrolladores de C# convertir imágenes en texto automáticamente, simplemente utilizando la clase IronTesseract
. Prioriza la velocidad, la precisión y la facilidad de uso. También ayuda a la API de visión por ordenador a encontrar texto con un conjunto entrenado de modelos.
Otra potente característica de IronOCR es que puede escanear códigos de barras y códigos QR de todos los archivos de imagen y leer su texto. A continuación se enumeran otras características importantes de IronOCR.
System.Drawing
, flujos y documentos PDF (DPI objetivo optimizado)SDK de reconocimiento óptico de caracteres Iris es un conjunto de herramientas de software modular que permite a sus aplicaciones convertir texto de imágenes en archivos editables y proporcionar otros servicios de reconocimiento de texto. Es el OCR profesional más rápido con un alto rendimiento y precisión. Con la tecnología de reconocimiento del iris, obtendrá las técnicas más avanzadas de reconocimiento óptico de caracteres, que incluyen escaneado de última generación, clasificación de documentos basada en IA, integridad de datos y extracción de datos.
Iris OCR es un SDK rico en funciones que también proporciona potentes herramientas de limpieza de imágenes para mejorarlas. Puede integrarse fácilmente con aplicaciones de software C++, C#, J# y VB.NET. IrisOCR ofrece soporte a largo plazo y está diseñado para utilizarse en varias plataformas. También admite aplicaciones OEM y SaaS. Iris OCR ayuda a las empresas con una solución global con precios flexibles.
Reconocimiento de códigos de barras: Reconocimiento de códigos de barras 1D y 2D (PDF417, código QR, código 39, UPC, etc.)
En este tutorial, vamos a utilizar la última versión de Visual Studio 2022. Por lo tanto, asumo que ya lo has descargado e instalado para C#. Si no es así, puede descargarlo de Sitio web de Visual Studio.
Ahora, necesitamos crear un proyecto de consola para empezar con ambas librerías. Siga los pasos para crear un proyecto:
Haga clic en Crear un nuevo proyecto.
Seleccione C# Console Application de las opciones dadas y haga clic en Next
Configure su nuevo proyecto con un nombre y una ubicación. Por ejemplo, "OCRProject".
Para más información, seleccione .NET 6.0 Framework, ya que es la versión más estable.
Hay varias formas de instalar la biblioteca IronOCR.
NuGet es el gestor de paquetes para descargar e instalar dependencias en tu proyecto. Sus paquetes contienen código compilado (DLL) y el archivo de manifiesto. Acceda a él mediante el siguiente método:
Ampliar la opción Gestor de paquetes NuGet
Haga clic en Administrar paquetes NuGet para soluciones
Haga clic en Gestionar paquetes NuGet
Ahora se abrirá la ventana del Gestor de paquetes NuGet. Busque IronOCR y haga clic en Instalar.
Puede descargarse directamente del sitio web oficial de NuGet.
Haga clic en el enlace "".
Haga clic en la opción de descarga de paquetes situada en la parte derecha de la página.
Abra el paquete descargado y comenzará la instalación.
Sólo tiene que visitar el sitio web de Iron Software y navegar hasta la página web de IronOCR for .NET. Desplácese hasta la parte inferior y haga clic en Descargar DLL o Descargar el instalador de Windows.
Se descarga un archivo zip. Extraiga el archivo del proyecto o ejecute el instalador de Windows. Siga los pasos que se indican a continuación para añadirlo a su proyecto.
Haga clic con el botón derecho en las dependencias del proyecto en Visual Studio desde el explorador de soluciones.
A continuación, seleccione la opción Añadir referencia de proyecto.
Busque la ubicación del archivo DLL descargado.
Vaya a la pestaña Herramientas de Visual Studio.
Ampliar la opción Gestor de paquetes NuGet.
Install-Package IronOcr
Esto descargará e instalará automáticamente IronOCR en su proyecto.
Sólo hay un Namespace requerido y necesita ser añadido en la parte superior del archivo de código fuente donde necesitamos acceder a sus funciones.
using IronOcr;
using IronOcr;
Imports IronOcr
Ahora, estamos listos para utilizar IronOCR en nuestro proyecto.
Hay muchas formas de utilizar Iris OCR. Si buscas una solución para pequeñas empresas u oficinas, puedes utilizar la aplicación OCR. El software puede descargarse desde enlace.
Si busca soluciones para medianas empresas, póngase en contacto con el equipo de Iris para obtener un presupuesto acorde con sus necesidades. Los SDK y demás documentación sólo están disponibles para los clientes registrados. Para utilizar el SDK en un entorno de desarrollo, es necesario solicitar acceso mediante este método formulario.
Aquí vamos a utilizar el software OCR Iris 17 a efectos comparativos. Proporciona todas las funcionalidades a un nivel básico y puede utilizarse en comparación con IronOCR. Los siguientes pasos le ayudarán a descargar e instalar el software Iris OCR:
Una vez descargado el software, haz doble clic para abrir el asistente de instalación.
Haga clic en Siguiente y elija el modo de instalación.
A continuación, seleccione las lenguas de las que desea leer el texto
Haga clic en Siguiente e instale Iris OCR
Ahora el software comenzará a instalarse. Tras la instalación, haga clic en Finalizar y abra el software Iris OCR.
Todo hecho! Pasemos ahora a la comparación propiamente dicha.
Leer datos de imágenes es una tarea bastante tediosa. La resolución y la calidad de las imágenes desempeñan un papel importante en la extracción de contenidos. Ambas bibliotecas ofrecen funciones de reconocimiento óptico de caracteres para extraer texto de imágenes.
IronOCR facilita a los desarrolladores la lectura del contenido de un archivo de imagen con su potente clase IronTessaract
. Aquí utilizaremos una imagen PNG para leer texto de un archivo de imagen y el código es el siguiente:
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/employmentapp.png");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/employmentapp.png");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
Dim OCR = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/employmentapp.png")
Dim Result = OCR.Read(Input)
Console.WriteLine(Result.Text)
End Using
El resultado de IronOCR coincide con la imagen original que se le ha proporcionado. El código es limpio y fácil de entender, sin tecnicismos.
El software Iris OCR permite escanear todos sus documentos en papel y utilizarlos para el reconocimiento de texto. La extracción de texto es muy sencilla gracias a la tecnología Iris OCR. Seleccione un archivo de imagen en la pestaña "Desde archivo" del menú Inicio. La misma imagen se utiliza para probar y comparar los resultados de los dos programas.
Puede aplicar una corrección de imagen a la imagen cargada. En la pestaña de archivo de salida, puedes elegir cualquier formato como salida. Proporciona múltiples formatos de salida como Word, Excel, PDF, archivos de texto, etc. Simplemente guarde el archivo en cualquier formato y ábralo para ver el texto extraído.
Puede ver que hay una clara diferencia en el resultado de los dos programas. IronOCR extrajo el texto exacto de la imagen junto con el formato. En cambio, Iris OCR conserva el formato, pero el nombre completo y el número de teléfono están desordenados.
IronOCR proporciona una característica única y útil durante la lectura de imágenes, es decir, puede leer códigos de barras y códigos QR. Puede detectar códigos de barras y mostrar su valor con facilidad.
Para ello, establezca la configuración de lectura de códigos de barras en true y, a continuación, itere por cada uno de los códigos de barras de los resultados del OCR. A continuación se indica el código para leer códigos de barras:
var OCR = new IronTesseract();
OCR.Configuration.ReadBarCodes = true;
using (var input = new OcrInput()){
input.AddImage("test-files/Barcode.png");
var Result = OCR.Read(input);
foreach (var Barcode in Result.Barcodes){
Console.WriteLine(Barcode.Value);
}
}
var OCR = new IronTesseract();
OCR.Configuration.ReadBarCodes = true;
using (var input = new OcrInput()){
input.AddImage("test-files/Barcode.png");
var Result = OCR.Read(input);
foreach (var Barcode in Result.Barcodes){
Console.WriteLine(Barcode.Value);
}
}
Dim OCR = New IronTesseract()
OCR.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("test-files/Barcode.png")
Dim Result = OCR.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
Next Barcode
End Using
Los tres códigos de barras de la imagen de entrada se leen correctamente y se muestra su texto oculto.
Iris OCR también ofrece la posibilidad de extraer los datos del código de barras de imágenes o archivos PDF. Sin embargo, en el caso de los códigos de barras, hay que seleccionar manualmente la zona del código de barras que se va a detectar. Vaya a la pestaña de zonas y seleccione el código de barras que desea reconocer.
Haga clic con el botón derecho del ratón en la región seleccionada y cópiela como datos; a continuación, guárdela en un archivo de tratamiento de texto para ver los datos.
En este caso, el software Iris OCR no es capaz de detectar el texto oculto tras los códigos de barras que aparecen en la imagen.
Leer archivos PDF es tan fácil como leer archivos de imagen en IronOCR. Sólo tiene que cambiar el método AddImage
por AddPDF
en el código de lectura de imágenes. El código es el siguiente:
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddPdf("test-files/example.pdf");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddPdf("test-files/example.pdf");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
Dim OCR = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("test-files/example.pdf")
Dim Result = OCR.Read(Input)
Console.WriteLine(Result.Text)
End Using
El texto extraído tiene el mismo formato que el archivo PDF.
Leer archivos PDF también es muy fácil con el software Iris. Es compatible con todos los formatos digitales y PDF es uno de ellos. También puede crear formatos con capacidad de búsqueda utilizando el software Iris OCR. PDF es un documento en papel y cada página se trata como un archivo de imagen independiente. Abra documentos en papel utilizando la opción Desde archivo. Seleccione el intervalo de páginas del que desea extraer el texto y guárdelo en el formato editable que desee de entre las opciones disponibles.
IronOCR es gratuito para fines de desarrollo, pero necesita licencia para uso comercial. También ofrece una prueba gratuita para que compruebes todo su potencial para tus necesidades. El paquete lite parte de $599 con una garantía de devolución del dinero de 30 días. IronOCR ofrece 1 año de asistencia y actualizaciones gratuitas del producto y, a partir de entonces, 399 dólares al año. Todas las licencias son perpetuas, es decir, sólo se compran una vez y no hay cargos ocultos. También puede optar por la cobertura de redistribución sin derechos de autor para productos SaaS y OEM por una única compra de 199 dólares. Para más información sobre paquetes de licencias y planes de precios, visite aquí.
Iris es una solución de OCR con una versión de prueba gratuita de 10 días. La versión Pro cuesta a partir de 99$ y la versión Cooperate a partir de 199$. Para utilizar su SDK en modo de producción necesitamos obtener un presupuesto de su representante de ventas. Si desea obtener una licencia para C # o cualquier otro lenguaje de desarrollo a continuación, obtener una cotización de aquí. Más información y comparación entre las versiones pro y cooperate en aquí.
IronOCR proporciona a los desarrolladores de C# la API de Tesseract más avanzada que conocemos, en cualquier plataforma. IronOCR se puede implementar en Windows, Linux, Mac, Azure, AWS y Lambda, y es compatible con proyectos .NET Framework, así como .NET Standard y .NET Core. También podemos leer códigos de barras en escaneados OCR, e incluso exportar nuestro OCR como HTML y PDF con capacidad de búsqueda.
El software Iris OCR está diseñado con funciones de inteligencia artificial y es compatible con Windows y Mac. Su SDK está disponible para múltiples lenguajes de programación. Iris Pro viene con las capacidades del SDK Iris OCR para Windows y Mac como una aplicación GUI. Puede leer texto de imágenes y PDF y convertirlos a otros formatos. También puede personalizar todos sus documentos en papel mediante el software Iris con sólo unos clics.
Las licencias de IronOCR están basadas en el desarrollador, lo que significa que siempre debe adquirir una licencia basada en el número de desarrolladores que utilizarán el producto. Las licencias de desarrollo de Iris OCR no se publican en el sitio web de Iris. Tiene que solicitar un presupuesto para obtener información sobre licencias. Además, la licencia IronOCR se adquiere una sola vez y puede utilizarse de por vida.
En general, ambos programas ofrecen casi todas las funciones de OCR con tecnología de IA, pero IronOCR tiene una ligera ventaja sobre Iris OCR. En términos de velocidad, precisión y rendimiento general, IronOCR es mejor en un entorno de producción. Sólo utiliza unas pocas líneas de código para hacer una aplicación de reconocimiento de texto de alto nivel. La documentación de la API también está disponible 24 horas al día, 7 días a la semana, lo que hace que los desarrolladores adoren esta biblioteca y la conviertan en la primera opción en soluciones de OCR. Puede probar toda su funcionalidad con un prueba gratuita.
Ahora puede comprar 5 productos de hierro al precio de 2. Para más información, visite este enlace enlace.
Descargar IronOCR desde aquí y pruébalo.
9 productos API .NET para sus documentos de oficina