USO DE IRONOCR

API de OCR de facturas (tutorial para desarrolladores)

Actualizado 22 de julio, 2023
Compartir:

La API de OCR de facturas utiliza el aprendizaje automático y la visión por ordenador para transformar los datos de las facturas en un formato adecuado para el procesamiento automatizado. Esta tecnología resuelve problemas de introducción manual de datos, como retrasos, costes y errores, extrayendo con precisión detalles como la información del proveedor, los números de factura y los precios, tanto de facturas digitales como escaneadas.

En este artículo se utilizará una API de OCR de facturas de gama alta denominada IronOCR.

1. IronOCR

IronOCR, desarrollada por Iron Software, es una biblioteca de OCR que ofrece una serie de herramientas para desarrolladores. Utiliza el aprendizaje automático y la visión por ordenador para extraer texto de documentos escaneados, imágenes y PDF, lo que permite un procesamiento automatizado. Sus API se integran en varios idiomas y plataformas, lo que reduce los errores de introducción manual de datos y mejora la eficiencia. Los datos extraídos pueden analizarse e integrarse en los sistemas existentes, lo que facilita la toma de decisiones y la productividad. Características como preprocesamiento de imágenes, reconocimiento de códigos de barras y el análisis sintáctico de archivos aumentan su versatilidad. IronOCR permite a los desarrolladores incorporar el reconocimiento de texto a sus aplicaciones.

2. Requisitos previos

Antes de empezar a trabajar con IronOCR, es necesario cumplir algunos requisitos previos. Estos requisitos previos incluyen:

  1. Asegúrese de que dispone de un entorno de desarrollo adecuado en su ordenador. Esto suele implicar disponer de un Entorno de Desarrollo Integrado (IDE) como Visual Studio instalado.
  2. Es importante tener conocimientos básicos del lenguaje de programación C#. Esto le permitirá comprender y modificar eficazmente los ejemplos de código proporcionados en el artículo.
  3. Necesitarás tener la librería IronOCR instalada en tu proyecto. Para ello, se puede utilizar el gestor de paquetes NuGet dentro de Visual Studio o a través de la interfaz de línea de comandos.

    Si se asegura de que se cumplen estos requisitos previos, estará listo para sumergirse en el proceso de trabajar con IronOCR.

3. Creación de un nuevo proyecto de Visual Studio

Para empezar con IronOCR, el primer paso es crear un nuevo proyecto de Visual Studio.

Abra Visual Studio y vaya a Archivos, luego pase el ratón por Nuevo y haga clic en Proyecto.

API de OCR de facturas (Tutorial para desarrolladores): Figura 1 - Nuevo proyecto

**Nuevo proyecto

En la nueva ventana, seleccione Aplicación de consola y haga clic en Siguiente.

API de OCR de facturas (Tutorial para desarrolladores): Figura 2 - Aplicación de consola

Aplicación de consola

Aparecerá una nueva ventana, escriba el nombre de su nuevo proyecto, y la ubicación y haga clic en Siguiente.

API de OCR de facturas (Tutorial para desarrolladores): Figura 3 - Configuración del proyecto

Configuración del proyecto

Por último, indique el marco de destino y haga clic en Crear.

API de OCR de facturas (tutorial para desarrolladores): Figura 4 - Marco de destino

Marco objetivo

Ahora su nuevo proyecto de Visual Studio está creado. Vamos a instalar IronOCR.

4. Instalación de IronOCR

Existen varios métodos para descargar e instalar la biblioteca IronOCR. Pero he aquí los dos enfoques más sencillos.

  1. Uso del gestor de paquetes NuGet de Visual Studio
  2. Uso de la línea de comandos de Visual Studio

4.1. Uso del gestor de paquetes NuGet de Visual Studio

IronOCR puede incluirse en un proyecto C# utilizando el gestor de paquetes NuGet de Visual Studio.

Navegue hasta la interfaz gráfica de usuario de NuGet Package Manager seleccionando Herramientas > NuGet Package Manager > Administrar paquetes NuGet para la solución.

API de OCR de facturas (Tutorial para desarrolladores): Figura 5 - Gestor de paquetes NuGet

Gestor de paquetes NuGet

A continuación, aparecerá una nueva ventana. Busque IronOCR e instale el paquete en el proyecto.

API de OCR de facturas (Tutorial para desarrolladores): Figura 6 - Seleccione el paquete IronOCR en la interfaz de usuario del gestor de paquetes NuGet

**Seleccione el paquete IronOCR en la interfaz de usuario del gestor de paquetes NuGet.

También pueden instalarse paquetes de idiomas adicionales para IronOCR utilizando el mismo método descrito anteriormente.

4.2. Uso de la línea de comandos de Visual Studio

  1. En Visual Studio, vaya a Herramientas > Administrador de paquetes NuGet > Consola del administrador de paquetes.
  2. Introduzca la siguiente línea en la pestaña Consola del gestor de paquetes:
    :ProductInstall

API de OCR de facturas (tutorial para desarrolladores): Figura 7 - Consola del gestor de paquetes

Consola del Administrador de Paquetes

El paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

5. Extraer datos de las facturas con IronOCR

Con IronOCR, puede extraer fácilmente datos de las facturas con sólo unas pocas líneas de código y utilizar esa extracción de datos para procesos posteriores como la entrada de datos. Esto sustituirá a la introducción manual de datos y muchas cosas más.

He aquí una factura de ejemplo de la que extraer texto.

API de OCR de facturas (Tutorial para desarrolladores): Figura 8 - La factura de muestra

**La factura modelo

Ahora, vamos a escribir el código para extraer todos los datos de esta factura.

using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System

Private ocr = New IronTesseract()
Using input = New OcrInput("r2.png")
	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
VB   C#

El código anterior recibe la entrada en forma de una imagen y luego extrae los datos de esa imagen utilizando una función Leer del método IronTesseract clase.

API de OCR de facturas (Tutorial para desarrolladores): Figura 9 - Analizador de facturas

Procesador de facturas

5.1. Tratamiento de facturas para extraer datos específicos de las facturas.

También puede extraer datos específicos de las facturas, como los números de factura de los clientes. A continuación se muestra el código para extraer el número de factura del cliente de la factura.

using IronOcr;
using System;
using System.Text.RegularExpressions;

var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = orc.Read(input);
    var linePattern = @"INV\/\d{4}\/\d{5}";
    var lineMatch = Regex.Match(result.Text, linePattern);
    if (lineMatch.Success)
    {
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }

}
using IronOcr;
using System;
using System.Text.RegularExpressions;

var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = orc.Read(input);
    var linePattern = @"INV\/\d{4}\/\d{5}";
    var lineMatch = Regex.Match(result.Text, linePattern);
    if (lineMatch.Success)
    {
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }

}
Imports IronOcr
Imports System
Imports System.Text.RegularExpressions

Private orc = New IronTesseract()
Using input = New OcrInput("r2.png")
	Dim result = orc.Read(input)
	Dim linePattern = "INV\/\d{4}\/\d{5}"
	Dim lineMatch = Regex.Match(result.Text, linePattern)
	If lineMatch.Success Then
		Dim lineValue = lineMatch.Value
		Console.WriteLine("Customer Invoice number: " & lineValue)
	End If

End Using
VB   C#

API de OCR de facturas (Tutorial para desarrolladores): Figura 10 - Escaneado de facturas

**Escaneado de facturas

6. Conclusión

La API de OCR de facturas de IronOCR revoluciona la extracción de datos de las facturas mediante el aprendizaje automático y la visión por ordenador. Esta tecnología convierte el texto y los números de las facturas en un formato legible por máquina, lo que simplifica la extracción de datos para el análisis, la integración y la mejora de los procesos. Ofrece una solución sólida para automatizar el procesamiento de facturas, mejorar la precisión y optimizar los flujos de trabajo como las cuentas por pagar. La introducción automática de datos a partir de facturas escaneadas también es posible con esta tecnología.

IronOCR ofrece una gran precisión utilizando los mejores resultados de Tesseract, sin ajustes adicionales. Admite marco multipágina TIFF, Archivos PDF y todos los formatos de imagen habituales. También es posible leer valores de códigos de barras a partir de imágenes.

Visite la página página de inicio para más información sobre IronOCR. Para más tutoriales sobre el OCR de facturas, visite la siguiente dirección detalles factura OCR tutorial. Para saber cómo utilizar la visión por ordenador para encontrar texto como campos de factura, visite este visión por computador.

< ANTERIOR
Los mejores OCR para el procesamiento de facturas (lista actualizada)
SIGUIENTE >
Cómo leer texto de una imagen en Blazor

¿Listo para empezar? Versión: 2024.7 recién publicada

Descarga gratuita de NuGet Descargas totales: 2,012,139 Ver licencias >
123