HERRAMIENTAS OCR

OCR C# Open Source (Lista para desarrolladores)

Publicado en 20 de junio, 2023
Compartir:

OCR(Reconocimiento óptico de caracteres) es una tecnología revolucionaria que transforma por completo la forma de utilizar los documentos escaneados en el mundo digital actual. Permite a los ordenadores reconocer y extraer texto de diversas fuentes, incluidos los documentos PDF escaneados, lo que nos permite editar e interactuar eficazmente con documentos PDF. Uno de los sistemas de reconocimiento óptico de caracteres(OCR) es Adobe Acrobat, que permite extraer rápidamente el texto de los documentos escaneados y convertirlos en PDF editables y PDF con imágenes que permiten realizar búsquedas.

Los desarrolladores pueden acceder a sólidas herramientas y API que hacen uso de algoritmos de vanguardia y enfoques de aprendizaje automático utilizando bibliotecas de OCR como Tesseract e IronOCR. Estas bibliotecas permiten un reconocimiento preciso del texto, lo que simplifica la gestión y recuperación de información útil tanto de documentos previamente escaneados como de documentos nuevos. El OCR permite analizar el contenido sin problemas y ayuda a empresas y particulares a maximizar su productividad sacando el máximo partido a sus documentos e imágenes de páginas escaneados. El OCR es una herramienta vital en la tecnología actual, ya se utilice para digitalizar registros en papel, extraer datos de facturas o simplemente mejorar la accesibilidad de los documentos.

Tesseract

El motor OCR de código abierto más conocido se llama Tesseract, y fue creado inicialmente por Hewlett-Packard. Desde 2006, Google apoya este proyecto de software libre, que se publica bajo la licencia Apache.

Uno de los sistemas gratuitos de código abierto más precisos es el motor de reconocimiento óptico de caracteres Tesseract. Tesseract admite ya 116 idiomas con su versión estable más reciente, la 4.1.1, basada en LSTM.

Tesseract requiere el apoyo de una interfaz gráfica de usuario independiente(interfaz gráfica de usuario) cuando se ejecuta desde una interfaz de línea de comandos porque no tiene su propia interfaz incorporada. Puede aprender nueva información utilizando sus redes neuronales y dispone de una avanzada canalización de preprocesamiento de imágenes. La técnica más eficaz para añadir capacidades de OCR a su aplicación .NET es el SDK .NET de Tesseract, que es una de las mejores soluciones para proporcionar capacidades de reconocimiento de texto. Aunque Tesseract es sin duda la mejor biblioteca de OCR que existe actualmente en el mercado.

GOCR

Para crear el OCR se utilizó la licencia pública GNU(Reconocimiento óptico de caracteres) programa conocido como GOCR. Vuelve a transformar archivos de texto en imágenes escaneadas de documentos. Tras iniciar el programa y dirigir el equipo de desarrollo en SF, Joerg Schulenburg sigue encargándose del paquete a un(muy) baja base de tiempo hoy.

Dado que GOCR puede utilizarse con varios front-ends, es relativamente sencillo portarlo a otros sistemas operativos, aplicaciones de red y arquitecturas. Puede leer una amplia gama de tipos de archivos de imagen y, hasta 2010, su calidad mejoró constantemente.

Según GOCR, puede manejar fuentes sans-serif de una sola columna con una altura de 20-60 píxeles. Señala dificultades con texto escrito en alfabetos distintos del latino, fuentes con gracias, letras superpuestas, texto manuscrito, diversos tipos de letra, fotos ruidosas y ángulos de inclinación excesivos. GOCR también es capaz de traducir códigos de barras.

CuneiForm

CuneiForm, una tecnología gratuita y de código abierto, ahora también se conoce como "Cognitive OpenOCR". Tiene salida incorporada y una base de datos. Cubre 23 idiomas distintos y también realiza tareas como el escaneado de formatos de texto, el análisis del diseño de los documentos y su identificación.

Cognitive Technologies ha desarrollado las licencias de OpenOCR, que son freeware y BSD. Aunque admite el uso multiplataforma, los usuarios de Linux no disponen de interfaz gráfica.

Para simplificar el trabajo de reconocimiento de caracteres en cualquier aplicación Dot NET Framework 2.0 o posterior, se utiliza la biblioteca wrapper Puma Dot NET. Ejecuta una comprobación del diccionario mientras procesa los datos para mejorar la calidad del reconocimiento.

CuneiForm es una tecnología diseñada para convertir de forma automática o semiautomática copias electrónicas de documentos en papel y archivos de imagen en un formato editable sin afectar a la estructura ni a las fuentes del documento original. El sistema consta de dos partes para procesar documentos electrónicos por lotes y un documento cada vez. Además, el sistema admite una combinación de ruso e inglés. Sólo la rama creada por Andrei Borovsky en 2009 admite el reconocimiento de otras lenguas híbridas. Enseñar al sistema a reconocer otros idiomas es un reto, ya que cada idioma está asociado a un archivo de datos cuya estructura y proceso de creación no han sido revelados por los desarrolladores.

Kraken

Kraken se desarrolló para solucionar los problemas de Ocropus sin afectar al resto de sus características. Utiliza su biblioteca de redes neuronales CLSTM y aprovecha la valiosa experiencia adquirida en proyectos anteriores con datos frescos. Requiere el uso de ciertas bibliotecas externas para funcionar eficazmente en diferentes plataformas. Con ayuda de la información almacenada, puede hacer predicciones más precisas sobre posibles problemas de validación de datos. Además, su metodología de trabajo facilita el despliegue y la formación de nuevos modelos.

A9T9

A9T9 es un software OCR gratuito que puede utilizarse para extraer texto de archivos de imagen y convertir imágenes y documentos PDF. Proporciona una interfaz gráfica de usuario(GUI) para el motor Tesseract OCR.

El programa es fácil de configurar. Y lo que es más importante, es completamente gratuito y de código abierto. No tiene spyware ni adware.

Puede abrir un archivo PDF o una imagen, y el contenido del archivo de origen se mostrará en la ventana de la izquierda. Si tu documento tiene varias páginas o es un documento multipágina, puedes utilizar las flechas de la parte inferior de la página para navegar entre ellas.

Para iniciar el proceso de OCR, simplemente haga clic en el botón verde OCR, y el resultado aparecerá en el segundo panel derecho. Tiene la opción de guardar el texto de salida tanto en archivos de texto como en documentos Word.

IronOCR

A diferencia de la biblioteca estándar Tesseract, IronOCR amplía Tesseract y proporciona una biblioteca OCR nativa de C# con mayor precisión, mejor rendimiento y mayor estabilidad. IronOCR puede utilizarse en programas .NET y sitios web para extraer texto de PDF e imágenes. Admite una amplia gama de lenguas extranjeras y puede generar texto sin formato o datos estructurados. Es capaz de escanear códigos de barras e imágenes con texto incrustado. La biblioteca puede utilizarse en aplicaciones desarrolladas en .NET para consola, web, MVC y escritorio. El equipo de desarrollo ofrece asistencia directa en el proceso de concesión de licencias para implantaciones comerciales. IronOCR es compatible con las últimas versiones de Visual Studio.

Ventajas de IronOCR

  • Utilizando el último motor Tesseract 5, IronOCR es capaz de leer documentos en papel, códigos de barras y códigos QR de varios archivos de imagen o PDF. Este paquete simplifica la incorporación de OCR en aplicaciones de escritorio, consola y web.
  • IronOCR nos permite realizar OCR, lo que nos permite convertir los PDF escaneados en PDF con capacidad de búsqueda.
  • Además de las listas de palabras y los idiomas personalizados, IronOCR es compatible con 127 idiomas diferentes de todo el mundo.
  • IronOCR puede escanear más de 20 tipos diferentes de códigos de barras y códigos QR.
  • IronOCR puede proporcionar salida en texto plano, así como datos de código de barras. Los desarrolladores pueden recuperar todo el contenido para introducirlo directamente en un sistema utilizando un paradigma alternativo de objetos de datos estructurados. Esto incluye títulos estructurados, párrafos, líneas, palabras y caracteres en aplicaciones web.

    A continuación se muestra el código de ejemplo que vamos a utilizar para reconocer el contenido del texto de la imagen dada y convertirlo en texto.

var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("Demo.png")
	Dim R = Ocr.Read(Input)
	Console.WriteLine(R.Text)
	Console.ReadKey()
End Using
VB   C#

En el fragmento de código anterior, estamos desarrollando una función utilizando IronTesseract. En primer lugar, instanciamos un nuevo objeto OcrInput para permitir la adición de uno o más archivos de imagen. Al utilizar el método Add del objeto OcrInput, puede que necesitemos especificar la ruta de la imagen dentro del código. Puede añadir tantas imágenes como desee. Al analizar los documentos de imagen y extraer los resultados en el resultado OCR, podemos utilizar la funcionalidad Read en el objeto que hemos creado previamente para acceder a las imágenes. Tiene capacidad para extraer texto de imágenes y convertirlo en una cadena.

El siguiente resultado muestra el texto extraído de la imagen proporcionada anteriormente, lo que demuestra que el texto se ha extraído correctamente de la imagen.

OCR C# Código abierto(Lista para desarrolladores) Figura 1 - Salida

Ver estoCorreo electrónico: para una instrucción completa de IronOCR.

Conclusión

Las herramientas OCR de código abierto nos permiten crear nuestros propios programas utilizando su código fuente. Sin embargo, algunas herramientas no disponen de una biblioteca oficial ni de un equipo especializado que ofrezca asistencia en caso de problemas de codificación. Además, la documentación de Tesseract carece de ejemplos de código o tutoriales sobre situaciones de uso habituales, lo que dificulta la comprensión del código y las bibliotecas por parte de los principiantes.

IronOCR es compatible con varios proyectos .NET, como .NET Framework Standard 2, .NET Framework 4.5 y .NET Core 2, 3 y 5. También funciona con tecnologías más recientes como Mono, Xamarin y Azure. Al aprovechar las tecnologías de IronOCR, podemos mejorar los resultados de Tesseract y corregir documentos o imágenes escaneados de forma imprecisa. El complejo sistema de diccionarios Tesseract se gestiona a través del paquete NuGet. Utilizamos la biblioteca Iron OCR para desarrollar una herramienta de OCR.

Con IronOCR, podemos utilizar el programa sin ninguna configuración adicional, y es compatible con archivos PDF, TIFF multi-frame y todos los formatos de imagen habituales. También ofrece funciones de reconocimiento de códigos de barras, lo que nos permite extraer datos de códigos de barras y leer valores de códigos de barras a partir de imágenes. IronOCR ofrece una edición de desarrollo rentable con una versión de prueba gratuita, y la licencia de por vida está incluida en el paquete IronOCR sin coste adicional. El paquete IronOCR ofrece cobertura para varias plataformas con un único pago. Para obtener más información sobre los precios de IronOCR, consulte este enlacepágina.

< ANTERIOR
Mejor OCR para japonés (Lista actualizada para desarrolladores)
SIGUIENTE >
Cómo obtener texto de imágenes con Tesseract

¿Listo para empezar? Versión: 2024.11 acaba de salir

Descarga gratuita de NuGet Descargas totales: 2,643,450 Ver licencias >