USO DE IRONOCR

Cómo crear una solución OCR para facturas

Actualizado febrero 18, 2024
Compartir:

Introducción

Reconocimiento óptico de caracteres, o OCRes una técnica que permite a los ordenadores identificar y extraer texto de imágenes o documentos escaneados. El principal objetivo del software de OCR es convertir las fotos que contienen texto en datos de texto legibles por máquina. Numerosos sectores pueden beneficiarse de la amplia gama de usos de esta tecnología, que agiliza la introducción de datos, la digitalización de documentos y la automatización de procedimientos como los de sus cuentas por pagar. En este artículo, veremos el uso de soluciones de OCR para procesar facturas y cómo hace que el procesamiento manual de facturas quede obsoleto.

Cómo utilizar la solución OCR para facturas

  1. Instale el IronOCR Biblioteca C#.

  2. Crear un nuevo proyecto C# en Visual Studio

  3. Examine una biblioteca de C# repleta de funciones para realizar OCR en el momento de la recepción.

  4. Utilizando Tesseract, extraer datos de los recibos

  5. Buscar datos concretos en el resultado del texto extraído.

  6. Examine los valores del código de barras en la imagen del recibo suministrado.

¿Qué es el tratamiento de facturas?

Las empresas pueden transformar facturas basadas en imágenes o escaneadas en texto legible por máquina utilizando el procesamiento de facturas OCR, que automatiza la extracción de texto y datos de las facturas. Gracias a esta automatización, aumenta la eficacia de los procedimientos financieros en general, disminuye la introducción manual de datos y se agiliza el tratamiento de las facturas.

IronOCR

Reconocimiento óptico de caracteres (OCR) es posible para los desarrolladores que utilizan el lenguaje de programación C# gracias a IronOCR**una biblioteca .NET. IronOCR, creado por Iron Software, es una herramienta útil para aplicaciones que necesitan reconocimiento automático de texto, ya que permite extraer texto de fotos, documentos escaneados y archivos PDF. Para extraer texto y datos de las facturas, debe integrar la biblioteca IronOCR en su aplicación .NET para el procesamiento automatizado de facturas mediante IronOCR.

IronOCR ayuda a evitar el fraude con el uso de algoritmos de IA. Esto hace que los errores, el fraude y las facturas duplicadas se identifiquen rápidamente. Reduzca los errores con una extracción de datos de facturas OCR superior, para que pueda evitar los errores causados por la introducción humana de datos. Más información sobre el cheque IronOCR aquí.

Las características más destacadas de IronOCR son:

  • Extracción de texto: Imágenes, documentos escaneados y archivos PDF pueden tener contenido de texto extraído usando IronOCR. Utiliza sofisticados algoritmos de OCR para identificar palabras, caracteres y diseños en los documentos suministrados.
  • Para extraer información de texto de fotos de facturas, utilice IronOCR. Esto implica recuperar información sobre el proveedor, las partidas, el número de factura, la fecha y cualquier otro dato pertinente.
  • Lectura de códigos de barras: IronOCR tiene capacidad para leer códigos de barras a partir de imágenes además de OCR, lo que aumenta su adaptabilidad para aplicaciones que requieren manejar tanto datos de texto como de códigos de barras.
  • Preprocesamiento de imágenes: Entre los métodos de preprocesamiento de imágenes que admite IronOCR se encuentran la eliminación de distorsiones, la reducción del ruido y la corrección del contraste. Al mejorar las imágenes de entrada, estos procedimientos de preprocesamiento ayudan a aumentar la precisión del OCR.
  • Tecnología OCR basada en zonas: Mediante la definición de zonas de OCR, los desarrolladores pueden indicar determinadas áreas de una imagen en las que debe concentrarse la extracción de texto. Cuando se gestionan documentos con diseños organizados, esta capacidad resulta muy útil.
  • El software OCR escanea y extrae texto de información escaneada o fotografiada procesando las imágenes o documentos adquiridos. El motor de OCR interpreta el diseño, las palabras y los caracteres del documento.

    Es fundamental recordar que la precisión de los ajustes de OCR, la complejidad de las facturas y el calibre de las fotos introducidas influyen en el éxito de la solución. Además, el uso de las API de IronOCR y la comprensión de las capacidades particulares que ofrece la biblioteca pueden ser pasos necesarios en el proceso de integración. Para obtener los detalles y recomendaciones más actualizados, consulte siempre la documentación oficial de IronOCR.

Creación de un nuevo proyecto en Visual Studio

Navegue hasta el "menú archivo" tras iniciar el programa Visual Studio. Vaya a "nuevo proyecto" y elija "Aplicación de consola". En este post, crearemos documentos PDF utilizando un programa de consola.

Cómo crear una solución OCR para facturas: Figura 1 - Creación de un nuevo proyecto a través de Visual Studio

En el cuadro de texto correspondiente, escriba el nombre del proyecto y elija la ubicación del archivo. A continuación, como se ve en la imagen de abajo, haga clic en el botón Crear y elija el .NET Framework necesario.

Cómo crear una solución OCR para facturas: Figura 2 - Configuración de la información del proyecto

Una vez elegida la aplicación, el proyecto de Visual Studio creará su estructura. Si has elegido las versiones de consola, Windows o web, se abrirá el archivo program.cs, para que puedas añadir código y construir/ejecutar la aplicación.

Para probar el código, podemos añadir la biblioteca después.

Instalar IronOCR

Es posible instalar paquetes directamente en la solución mediante la herramienta de gestión de paquetes NuGet de Visual Studio. La captura de abajo se puede utilizar para ver el Gestor de paquetes NuGet.

Cómo crear una solución OCR para factura: Figura 3 - Cómo llegar al gestor de paquetes NuGet a través de Visual Studio

Dispone de un cuadro de búsqueda para mostrar la lista de paquetes del sitio web de NuGet. Como se puede ver en la siguiente captura de pantalla, tenemos que buscar en el gestor de paquetes la frase IronOCR:

Cómo crear una solución OCR para facturas: Figura 4 - Instalación de IronOCR a través del gestor de paquetes NuGet

El gráfico anterior podría proporcionarnos una lista de términos de búsqueda pertinentes. Tenemos que hacer la selección necesaria para instalar el paquete de soluciones.

IronOCR para extraer datos de las facturas

IronOCR es una potente biblioteca de OCR que puede utilizarse para extraer datos y leer datos de facturas. Con IronOCR, puede tomar una foto de un recibo y utilizarla para convertirla en texto legible por máquina, fácil de procesar y analizar, sin comprometer la privacidad de los datos. El OCR de facturas nos permite extraer los datos de las facturas en formato digital.

Este es un ejemplo de cómo IronOCR trabaja para procesar facturas de proveedores y extrae texto de facturas en papel.

using System;
using System.Collections.Generic;
using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
    Input.AddImage(@"invoice.png"); // adding the example invoice to read
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    Console.ReadKey();
}
using System;
using System.Collections.Generic;
using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
    Input.AddImage(@"invoice.png"); // adding the example invoice to read
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    Console.ReadKey();
}
Imports System
Imports System.Collections.Generic
Imports IronOcr
Private Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("invoice.png") ' adding the example invoice to read
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
	Console.ReadKey()
End Using
VB   C#

A continuación se muestra el resultado del código mencionado:

Cómo crear una solución OCR para facturas: Figura 5 - Texto resultante del código anterior

El ejemplo anterior muestra que IronOCR nos ayudó a OCR y mostrar los datos extraídos en la consola.

Leer códigos de barras en la factura

Además del texto, los códigos de barras de los recibos pueden escanearse con IronOCR. Para utilizar IronOCR para escanear códigos de barras en recibos, debe utilizar la función ReadBarCodes junto con la clase BarcodeReader.

Esta es una ilustración de cómo utilizar IronOCR para decodificar una imagen de un recibo para la lectura de códigos de barras.

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput("invoice.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput("invoice.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Dim ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("invoice.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
VB   C#

Cómo crear una solución OCR para facturas: Figura 6 - Código de barras introducido

Aunque IronOCR ofrece sólidas capacidades de OCR, es vital recordar que todo el flujo de trabajo de procesamiento de facturas puede requerir también otros elementos como la validación de datos, la lógica empresarial y la conectividad del sistema financiero. Es posible que necesite combinar IronOCR con herramientas o piezas adicionales para conseguir una solución completa de procesamiento de facturas, en función de su caso de uso particular.

Resultado:

Cómo crear una solución OCR para facturas: Figura 7 - Resultado de la lectura del código de barras de ejemplo utilizando el código anterior

Para saber más sobre la demostración en línea de IronOCR, consulte aquí.

Conclusión

Como reconocimiento óptico de caracteres sólido y adaptable (OCR) para desarrolladores de C#, IronOCR destaca, en conclusión. La extracción de texto de fotos, documentos escaneados y archivos PDF es posible y sencilla gracias a esta colección completa de funciones que ofrece la biblioteca .NET de Iron Software.

Por último, IronOCR es una solución de OCR extraordinaria que ofrece una integración, flexibilidad y precisión extraordinarias. Por su incomparable precisión, sus avanzados algoritmos y su capacidad para identificar una amplia gama de formatos de documentos, incluidos los manuscritos, IronOCR es la mejor solución de OCR que existe actualmente en el mercado y proporciona mejores documentos con ejemplos de código que permiten a los principiantes aprender de forma rápida y sencilla.

Se puede acceder a la rentable edición de desarrollo de IronOCR, y la compra del paquete IronOCR concede una licencia de por vida. Dado que las ofertas del paquete IronOCR comienzan en $599, un coste único para numerosos sistemas, ofrece un valor excepcional. Proporciona asistencia técnica en línea las 24 horas del día, los 7 días de la semana, a los usuarios con licencia de IronOCR. Consulte el IronOCR sitio web para más información sobre las tasas.

< ANTERIOR
Cómo crear un escáner de recibos OCR en C#
SIGUIENTE >
Automatización de OCR (Tutorial de OCR de matrículas en C#)

¿Listo para empezar? Versión: 2024.9 acaba de salir

Descarga gratuita de NuGet Descargas totales: 2,233,035 View Licenses >