Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
La API de OCR de facturas utiliza el aprendizaje automático y la visión por ordenador para transformar los datos de las facturas en un formato adecuado para el procesamiento automatizado. Esta tecnología resuelve problemas de introducción manual de datos, como retrasos, costes y errores, extrayendo con precisión detalles como la información del proveedor, los números de factura y los precios, tanto de facturas digitales como escaneadas.
Este artículo utilizará una API de OCR para facturas de primera categoría llamada IronOCR.
OcrInput
Ocr.Read
.Console.WriteLine
IronOCR, desarrollada por Iron Software, es una biblioteca de OCR que ofrece una serie de herramientas para desarrolladores. Utiliza el aprendizaje automático y la visión por ordenador para extraer texto de documentos escaneados, imágenes y PDF, lo que permite un procesamiento automatizado. Sus API se integran en varios idiomas y plataformas, lo que reduce los errores de introducción manual de datos y mejora la eficiencia. Los datos extraídos pueden analizarse e integrarse en los sistemas existentes, lo que facilita la toma de decisiones y la productividad. Características como el preprocesamiento de imágenes, el reconocimiento de códigos de barras y el análisis de archivos aumentan su versatilidad. IronOCR permite a los desarrolladores incorporar el reconocimiento de texto a sus aplicaciones.
Antes de empezar a trabajar con IronOCR, es necesario cumplir algunos requisitos previos. Estos requisitos previos incluyen:
Asegúrese de que dispone de un entorno de desarrollo adecuado en su ordenador. Esto generalmente implica tener un Entorno de Desarrollo Integrado (IDE) como Visual Studio instalado.
Es importante tener conocimientos básicos del lenguaje de programación C#. Esto le permitirá comprender y modificar eficazmente los ejemplos de código proporcionados en el artículo.
Necesitarás tener la librería IronOCR instalada en tu proyecto. Para ello, se puede utilizar el gestor de paquetes NuGet dentro de Visual Studio o a través de la interfaz de línea de comandos.
Si se asegura de que se cumplen estos requisitos previos, estará listo para sumergirse en el proceso de trabajar con IronOCR.
Para empezar con IronOCR, el primer paso es crear un nuevo proyecto de Visual Studio.
Abra Visual Studio y vaya a Archivos, luego pase el ratón por Nuevo y haga clic en Proyecto.
Nuevo Proyecto
En la nueva ventana, seleccione Aplicación de consola y haga clic en Siguiente.
Aplicación de consola
Aparecerá una nueva ventana, escriba el nombre de su nuevo proyecto, y la ubicación y haga clic en Siguiente.
Configuración del Proyecto
Por último, indique el marco de destino y haga clic en Crear.
Marco de Destino
Ahora su nuevo proyecto de Visual Studio está creado. Vamos a instalar IronOCR.
Existen varios métodos para descargar e instalar la biblioteca IronOCR. Pero he aquí los dos enfoques más sencillos.
Uso del gestor de paquetes NuGet de Visual Studio
IronOCR puede incluirse en un proyecto C# utilizando el gestor de paquetes NuGet de Visual Studio.
Vaya a la interfaz gráfica de usuario del Administrador de paquetes NuGet seleccionando Herramientas > Administrador de paquetes NuGet > Administrar paquetes NuGet para la solución
Administrador de paquetes NuGet
A continuación, aparecerá una nueva ventana. Busque IronOCR e instale el paquete en el proyecto.
Seleccione el paquete IronOCR en la interfaz de usuario de NuGet Package Manager
También pueden instalarse paquetes de idiomas adicionales para IronOCR utilizando el mismo método descrito anteriormente.
En Visual Studio, ve a Herramientas > Administrador de paquetes NuGet > Consola del administrador de paquetes
:ProductInstall
Consola del Administrador de Paquetes
El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.
Con IronOCR, puede extraer fácilmente datos de las facturas con sólo unas pocas líneas de código y utilizar esa extracción de datos para procesos posteriores como la entrada de datos. Esto sustituirá a la introducción manual de datos y muchas cosas más.
He aquí una factura de ejemplo de la que extraer texto.
La factura de muestra
Ahora, vamos a escribir el código para extraer todos los datos de esta factura.
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System
Private ocr = New IronTesseract()
Using input = New OcrInput("r2.png")
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
El código anterior recibe la entrada en forma de una imagen y luego extrae datos de esa imagen utilizando un método Read
de la clase IronTesseract
.
Procesador de Facturas
También puede extraer datos específicos de las facturas, como los números de factura de los clientes. A continuación se muestra el código para extraer el número de factura del cliente de la factura.
using IronOcr;
using System;
using System.Text.RegularExpressions;
var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = orc.Read(input);
var linePattern = @"INV\/\d{4}\/\d{5}";
var lineMatch = Regex.Match(result.Text, linePattern);
if (lineMatch.Success)
{
var lineValue = lineMatch.Value;
Console.WriteLine("Customer Invoice number: " + lineValue);
}
}
using IronOcr;
using System;
using System.Text.RegularExpressions;
var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
var result = orc.Read(input);
var linePattern = @"INV\/\d{4}\/\d{5}";
var lineMatch = Regex.Match(result.Text, linePattern);
if (lineMatch.Success)
{
var lineValue = lineMatch.Value;
Console.WriteLine("Customer Invoice number: " + lineValue);
}
}
Imports IronOcr
Imports System
Imports System.Text.RegularExpressions
Private orc = New IronTesseract()
Using input = New OcrInput("r2.png")
Dim result = orc.Read(input)
Dim linePattern = "INV\/\d{4}\/\d{5}"
Dim lineMatch = Regex.Match(result.Text, linePattern)
If lineMatch.Success Then
Dim lineValue = lineMatch.Value
Console.WriteLine("Customer Invoice number: " & lineValue)
End If
End Using
Escaneo de Facturas
La API de OCR de facturas de IronOCR revoluciona la extracción de datos de las facturas mediante el aprendizaje automático y la visión por ordenador. Esta tecnología convierte el texto y los números de las facturas en un formato legible por máquina, lo que simplifica la extracción de datos para el análisis, la integración y la mejora de los procesos. Ofrece una solución sólida para automatizar el procesamiento de facturas, mejorar la precisión y optimizar los flujos de trabajo como las cuentas por pagar. La introducción automática de datos a partir de facturas escaneadas también es posible con esta tecnología.
IronOCR ofrece una gran precisión utilizando los mejores resultados de Tesseract, sin ajustes adicionales. Es compatible con TIFF de fotogramas multipágina, archivos PDF, y todos los formatos de imagen populares. También es posible leer los valores de los códigos de barras desde imágenes.
Por favor, visite el sitio web principal para obtener más información sobre IronOCR. Para más tutoriales sobre OCR de facturas, visite el siguiente detallado tutorial de OCR de facturas. Para saber cómo usar la visión por computadora para encontrar texto, como los campos de facturas, visite este tutorial de visión por computadora.