Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
La API de OCR de facturas utiliza el aprendizaje automático y la visión por ordenador para transformar los datos de las facturas en un formato adecuado para el procesamiento automatizado. Esta tecnología resuelve problemas de introducción manual de datos, como retrasos, costes y errores, extrayendo con precisión detalles como la información del proveedor, los números de factura y los precios, tanto de facturas digitales como escaneadas.
En este artículo se utilizará una API de OCR de facturas de gama alta denominadaIronOCR.
OcrInput
métodoOcr.Read
método.Console.WriteLine
IronOCR, desarrollada por Iron Software, es una biblioteca de OCR que ofrece una serie de herramientas para desarrolladores. Utiliza el aprendizaje automático y la visión por ordenador para extraer texto de documentos escaneados, imágenes y PDF, lo que permite un procesamiento automatizado. Sus API se integran en varios idiomas y plataformas, lo que reduce los errores de introducción manual de datos y mejora la eficiencia. Los datos extraídos pueden analizarse e integrarse en los sistemas existentes, lo que facilita la toma de decisiones y la productividad. Características comopreprocesamiento de imágenes, reconocimiento de códigos de barrasy el análisis sintáctico de archivos aumentan su versatilidad. IronOCR permite a los desarrolladores incorporar el reconocimiento de texto a sus aplicaciones.
Antes de empezar a trabajar con IronOCR, es necesario cumplir algunos requisitos previos. Estos requisitos previos incluyen:
Asegúrese de que dispone de un entorno de desarrollo adecuado en su ordenador. Esto suele implicar disponer de un Entorno de Desarrollo Integrado(IDE) como Visual Studio instalado.
Es importante tener conocimientos básicos del lenguaje de programación C#. Esto le permitirá comprender y modificar eficazmente los ejemplos de código proporcionados en el artículo.
Necesitarás tener la librería IronOCR instalada en tu proyecto. Para ello, se puede utilizar el gestor de paquetes NuGet dentro de Visual Studio o a través de la interfaz de línea de comandos.
Si se asegura de que se cumplen estos requisitos previos, estará listo para sumergirse en el proceso de trabajar con IronOCR.
Para empezar con IronOCR, el primer paso es crear un nuevo proyecto de Visual Studio.
Abra Visual Studio y vaya a Archivos, luego pase el ratón por Nuevo y haga clic en Proyecto.
**Nuevo proyecto
En la nueva ventana, seleccione Aplicación de consola y haga clic en Siguiente.
Aplicación de consola
Aparecerá una nueva ventana, escriba el nombre de su nuevo proyecto, y la ubicación y haga clic en Siguiente.
Configuración del proyecto
Por último, indique el marco de destino y haga clic en Crear.
Marco objetivo
Ahora su nuevo proyecto de Visual Studio está creado. Vamos a instalar IronOCR.
Existen varios métodos para descargar e instalar la biblioteca IronOCR. Pero he aquí los dos enfoques más sencillos.
Uso del gestor de paquetes NuGet de Visual Studio
IronOCR puede incluirse en un proyecto C# utilizando el gestor de paquetes NuGet de Visual Studio.
Navegue hasta la interfaz gráfica de usuario de NuGet Package Manager seleccionando Herramientas > NuGet Package Manager > Administrar paquetes NuGet para la solución.
Gestor de paquetes NuGet
A continuación, aparecerá una nueva ventana. Busque IronOCR e instale el paquete en el proyecto.
**Seleccione el paquete IronOCR en la interfaz de usuario del gestor de paquetes NuGet.
También pueden instalarse paquetes de idiomas adicionales para IronOCR utilizando el mismo método descrito anteriormente.
En Visual Studio, vaya a Herramientas > Administrador de paquetes NuGet > Consola del administrador de paquetes.
:ProductInstall
Consola del Administrador de Paquetes
El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.
Con IronOCR, puede extraer fácilmente datos de las facturas con sólo unas pocas líneas de código y utilizar esa extracción de datos para procesos posteriores como la entrada de datos. Esto sustituirá a la introducción manual de datos y muchas cosas más.
He aquí una factura de ejemplo de la que extraer texto.
**La factura modelo
Ahora, vamos a escribir el código para extraer todos los datos de esta factura.
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System
Private ocr = New IronTesseract()
Using input = New OcrInput("r2.png")
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
El código anterior recibe la entrada en forma de una imagen y luego extrae los datos de esa imagen utilizando una funciónLeer
del métodoIronTesseract
clase.
Procesador de facturas
También puede extraer datos específicos de las facturas, como los números de factura de los clientes. A continuación se muestra el código para extraer el número de factura del cliente de la factura.
using IronOcr;
using System;
using System.Text.RegularExpressions;
var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = orc.Read(input);
var linePattern = @"INV\/\d{4}\/\d{5}";
var lineMatch = Regex.Match(result.Text, linePattern);
if (lineMatch.Success)
{
var lineValue = lineMatch.Value;
Console.WriteLine("Customer Invoice number: " + lineValue);
}
}
using IronOcr;
using System;
using System.Text.RegularExpressions;
var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = orc.Read(input);
var linePattern = @"INV\/\d{4}\/\d{5}";
var lineMatch = Regex.Match(result.Text, linePattern);
if (lineMatch.Success)
{
var lineValue = lineMatch.Value;
Console.WriteLine("Customer Invoice number: " + lineValue);
}
}
Imports IronOcr
Imports System
Imports System.Text.RegularExpressions
Private orc = New IronTesseract()
Using input = New OcrInput("r2.png")
Dim result = orc.Read(input)
Dim linePattern = "INV\/\d{4}\/\d{5}"
Dim lineMatch = Regex.Match(result.Text, linePattern)
If lineMatch.Success Then
Dim lineValue = lineMatch.Value
Console.WriteLine("Customer Invoice number: " & lineValue)
End If
End Using
**Escaneado de facturas
La API de OCR de facturas de IronOCR revoluciona la extracción de datos de las facturas mediante el aprendizaje automático y la visión por ordenador. Esta tecnología convierte el texto y los números de las facturas en un formato legible por máquina, lo que simplifica la extracción de datos para el análisis, la integración y la mejora de los procesos. Ofrece una solución sólida para automatizar el procesamiento de facturas, mejorar la precisión y optimizar los flujos de trabajo como las cuentas por pagar. La introducción automática de datos a partir de facturas escaneadas también es posible con esta tecnología.
IronOCR ofrece una gran precisión utilizando los mejores resultados de Tesseract, sin ajustes adicionales. Admitemarco multipágina TIFF, Archivos PDFy todos los formatos de imagen habituales. También es posibleleer valores de códigos de barras a partir de imágenes.
Visite la páginapágina de inicio para más información sobre IronOCR. Para más tutoriales sobre el OCR de facturas, visite la siguiente direccióndetalles factura OCR tutorial. Para saber cómo utilizar la visión por ordenador para encontrar texto como campos de factura, visite estevisión por computador.
9 productos API .NET para sus documentos de oficina