Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Reconocimiento óptico de caracteres(OCR) es ahora la tecnología más importante para el tratamiento de documentos como las facturas. Ha evolucionado en todos los aspectos de la empresa, desde la educación hasta la industria. En todas partes se puede ver el uso de software OCR porque disminuye el uso de la introducción manual de datos. Existen muchos tipos de API de OCR de facturas que los desarrolladores pueden utilizar para crear aplicaciones de software de OCR para procesar facturas.
En este artículo, exploraremos los tres software y bibliotecas de código abierto C# Invoice OCR para el procesamiento de facturas y otros procesos de OCR. Discutiremos laIronOCRTambién(separado de ellos)que es la opción mejor pagada para que los desarrolladores integren funciones avanzadas de OCR en proyectos de C#. Empecemos con las opciones de código abierto.
Tesseract OCR, desarrollado inicialmente por Hewlett Packard y ahora mantenido por Google, es un potente motor de OCR de código abierto. Es capaz de leer una amplia gama de tipos de documentos y convertirlos en datos utilizables. Es compatible con varios idiomas, lo que la convierte en un valioso recurso para las empresas internacionales.
Los desarrolladores de C# encuentran en Tesseract OCR una herramienta excepcionalmente útil por su versatilidad y precisión de extracción. Al incorporar Tesseract a sus aplicaciones de software, los desarrolladores pueden procesar eficazmente nuevas facturas y extraer datos e información relevante, como órdenes de compra e importes de impuestos. Podemos utilizar los datos extraídos para extraer el número de factura y los artículos de la factura PDF.
Integración en aplicaciones .NET: En proyectos C#, la integración de Tesseract OCR implica aprovechar el SDK o wrapper de Tesseract .NET, que proporciona una forma simplificada de incorporar funcionalidades OCR. La integración permite a los desarrolladores trabajar en el entorno .NET con el que están familiarizados, lo que garantiza un proceso de desarrollo sin problemas.
Reconocimiento de texto: Tesseract OCR destaca en el reconocimiento y extracción de texto a partir de diversos formatos de imagen. Es capaz de manejar una amplia gama de tipos de documentos, desde documentos escaneados y archivos PDF hasta imágenes capturadas en diferentes condiciones de iluminación o ángulos.
Compatibilidad con varios idiomas: Uno de los puntos fuertes de Tesseract es su compatibilidad con más de 100 idiomas. Esto la convierte en una herramienta increíblemente versátil para aplicaciones globales que necesitan procesar y analizar datos de texto procedentes de diversas fuentes lingüísticas.
Personalización y formación: Tesseract permite a los desarrolladores entrenar el motor con nuevas fuentes e idiomas, ofreciendo una solución de OCR a medida que se adapta a necesidades empresariales o tipos de documentos específicos. Esta función es especialmente beneficiosa para reconocer texto en documentos especializados o fuentes poco comunes.
Emgu CV C# es una envoltura .NET de la biblioteca OpenCV. Ayuda a los desarrolladores a utilizar fácilmente la funcionalidad de OpenCV en sus proyectos C#. Proporciona un rico conjunto de herramientas para el procesamiento de imágenes, la visión por ordenador y otros ámbitos relacionados. Puede ser muy útil para procesar facturas y extraer datos estructurados.
Utiliza el motor Tesseract OCR para extraer texto de imágenes y documentos. Este paso exige precisión, ya que es el paso principal de la extracción de datos de cualquier factura. El método principal de esta envoltura es Tesseract.Recognize() ya que convierte el texto de la imagen en datos editables y susceptibles de búsqueda. Los desarrolladores pueden mejorar la eficacia de los flujos de trabajo de procesamiento de facturas.
Multiplataforma: Emgu CV es funcional en cualquier plataforma que soporte .NET, incluyendo iOS, Android, Mac OS, Linux y Windows.
Multilenguaje: Más allá de C#, Emgu CV es accesible en varios lenguajes, incluyendo VB.NET, C++ y IronPython. Proporciona un extenso código de ejemplo y un sólido soporte a través de su documentación.
At9Ttambién conocido como(a9t9)ofrece un OCR gratuito(Reconocimiento óptico de caracteres) aplicación informática. Este programa permite extraer datos de archivos PDF e imágenes mediante una atractiva interfaz gráfica de usuario.(GUI). Está completamente escrito en lenguaje C#. Ofrece una forma muy sencilla y fácil de usar de convertir PDF en documentos con capacidad de búsqueda gracias a su procesamiento inteligente de documentos.
Su interfaz gráfica de usuario ayuda a ampliar su mercado a personas no desarrolladoras que quieren soluciones con un solo clic. Este programa es muy fácil de instalar y utilizar. Puede utilizarse para uso personal y profesional. Puede realizar muchas tareas de OCR de forma eficaz. Podemos cargar facturas en PDF y extraer los datos de la factura, como la fecha, las partidas, los totales, etc. Es necesario cargar y pulsar un botón para iniciar el OCR, y comenzará a procesar las facturas.
Interfaz fácil de usar: Su interfaz de usuario es fácil de usar. Se diseñó pensando en la sencillez. Cualquier persona sin experiencia puede utilizarlo fácilmente.
Compatible con varios idiomas: Soporta múltiples idiomas como inglés, holandés, japonés, coreano y muchos más.
Procesamiento por lotes: Este software puede hacer OCR de múltiples archivos al mismo tiempo. Ahorrará tiempo si desea extraer datos de un gran número de archivos.
Como ya hemos dicho, las opciones de código abierto tienen muchas dificultades. Como Tesseract no es fácil de integrar en nuestros proyectos; necesita una envoltura para usarlo. Para utilizar Emgu CV, debes conocer OpenCV. De lo contrario, será una experiencia de aprendizaje empinada para ti, y además no tiene una documentación extensa. Al mismo tiempo, At9T no es adecuado para documentos complejos.
Para superar estos problemas y avanzar en las soluciones de OCR,IronOCR es la mejor opción. IronOCR es una biblioteca .NET OCR que amplía las capacidades del motor Tesseract 5 y añade opciones más avanzadas para OCR. A diferencia de Tesseract y otras bibliotecas, es muy fácil de integrar en proyectos .NET.
IronOCR admite múltiples formatos de documentos, como PDF, PNG, JPG y BMP, entre otros. Es compatible con una amplia gama de plataformas y marcos .NET, incluidos Windows, macOS y otros. Puede realizar acciones de OCR en más de 127 idiomas, lo que lo convierte en un producto de OCR global. Puede extraer datos de todos los formatos de factura utilizando su asombrosa tecnología de OCR de facturas. IronOCR utiliza el aprendizaje automático para el mejor reconocimiento de texto. Veamos las principales características de IronOCR.
He aquí un resumen organizado de sus principales características:
Flexibilidad de entrada: Lee desde una gran variedad de formatos, incluidas imágenes.(JPG, PNG, BMP)Archivos multipágina/cuadro(TIFF, GIF)y objetos System.Drawing, secuencias y PDF con DPI optimizados.
Filtros avanzados: Una gama de filtros como el Asistente de filtros, Corrección de imagen(nitidez, mejora de la resolución, eliminación de ruido, dilatación, erosión)Corrección de la orientación de la imagen(rotar, distorsionar, escalar)y corrección del color(binarizar, escala de grises, invertir, reemplazar color, seleccionar color de texto) para garantizar una calidad de imagen óptima antes del OCR.
Selección de región: Permite seleccionar regiones específicas del documento para OCR a través de CropRectangle.
Salida de datos: Proporciona salida de datos simples como cadenas de texto .NET, códigos de barras, datos QR e imágenes.
Datos estructurados: Ofrece salida de datos estructurados en forma de páginas, bloques, párrafos, líneas, palabras y caracteres.
Exportación de documentos: Permite exportar documentos como PDF con opción de búsqueda, HTML o como imágenes de páginas, texto, código de barras o QR.
Resaltar y guardar texto: Función para resaltar y guardar caracteres, palabras, líneas y párrafos.
Lenguajes y marcos: Compatible con C#, VB.NET, F#, y compatible con .NET 8, 7, 6, 5, Core 2x & 3x, Standard 2, y Framework 4.6.2+.
Sistemas operativos: Compatibilidad versátil con Microsoft Windows, macOS, Linux, Docker, Azure y AWS.
**Soporte: Totalmente compatible con Microsoft Visual Studio y JetBrains ReSharper & Rider.
Aquí está el código de ejemplo para extraer datos de la factura utilizando IronOCR:
// Create IronOCR Tesseract Instance
IronTesseract tesseract = new IronTesseract();
// Create an OcrInput object
using (OcrInput input = new OcrInput("sample_invoice.png")) // You can directly pass the image path to the constructor
{
// Read and store OcrResults object
OcrResult result = tesseract.Read(input);
// Get all text from the OCR result
string allText = result.Text;
// Print to console
Console.WriteLine(allText);
}
// Create IronOCR Tesseract Instance
IronTesseract tesseract = new IronTesseract();
// Create an OcrInput object
using (OcrInput input = new OcrInput("sample_invoice.png")) // You can directly pass the image path to the constructor
{
// Read and store OcrResults object
OcrResult result = tesseract.Read(input);
// Get all text from the OCR result
string allText = result.Text;
// Print to console
Console.WriteLine(allText);
}
' Create IronOCR Tesseract Instance
Dim tesseract As New IronTesseract()
' Create an OcrInput object
Using input As New OcrInput("sample_invoice.png") ' You can directly pass the image path to the constructor
' Read and store OcrResults object
Dim result As OcrResult = tesseract.Read(input)
' Get all text from the OCR result
Dim allText As String = result.Text
' Print to console
Console.WriteLine(allText)
End Using
Estos son los datos de salida que hemos extraído de la imagen de la factura:
Podemos realizar análisis de datos mediante el reconocimiento de datos y exportarlos a un archivo CSV.
En conclusión, cuando hablamos de leer texto a partir de imágenes o documentos(Tecnología OCR)tenemos muchas opciones. Tesseract OCR, Emgu CV y At9T son herramientas gratuitas que pueden utilizarse. Cada uno es bueno a su manera.
Pero si necesita algo más avanzado enfactura OCRy si se adapta a sus necesidades, puede comenzar una licencia a partir de $749.
Así que, tanto si eres un programador que quiere añadir funciones de lectura de texto a su proyecto como si eres una empresa que quiere gestionar mejor sus documentos, hay muchas opciones. Herramientas gratuitas como Tesseract, Emgu CV y At9T son buenos puntos de partida. Pero para algo más profesional, IronOCR ofrece muchas funciones avanzadas. La clave está en elegir la herramienta adecuada para sus necesidades específicas.
9 productos API .NET para sus documentos de oficina