USO DE IRONOCR

Extracción de datos de recibos OCR (Tutorial paso a paso)

Actualizado 8 de mayo, 2023
Compartir:

El OCR de recibos con IronOCR cambia las reglas del juego tanto para empresas como para particulares. El proceso permite extraer información importante de recibos físicos y convertirlos en datos digitales. Este artículo le mostrará paso a paso cómo utilizar IronOCR para sacar el máximo partido a sus recibos.

Introducción rápida al OCR

El reconocimiento óptico de caracteres, o OCR (Optical Character Recognition), es una tecnología que permite a los ordenadores leer y comprender texto a partir de imágenes o documentos escaneados. Al convertir texto manuscrito o impreso en texto legible por máquina, el OCR permite almacenar, procesar y analizar la información contenida en documentos físicos.

2. Introducción a IronOCR

IronOCR es un OCR (Reconocimiento óptico de caracteres) para desarrolladores C# y .NET. Permite a los desarrolladores extraer texto de imágenes, PDFs y otros formatos de documento. IronOCR se basa en el popular Motor OCR Tesseract y añade funciones adicionales, lo que la convierte en la opción ideal para diversas aplicaciones, incluido el OCR de recibos.

3. Ventajas del uso de IronOCR para la extracción de datos

Las siguientes son algunas de las principales ventajas de utilizar IronOCR para la extracción de datos de recibos OCR:

Alta precisión: IronOCR proporciona una excelente precisión OCR API, garantizando una extracción de datos fiable de recibos y otros documentos.

**Asistencia multilingüe: IronOCR es compatible con más de 125 idiomas, lo que lo hace idóneo para aplicaciones globales.

Fácil de usar: La librería ofrece una API sencilla e intuitiva, lo que facilita a los desarrolladores la implementación de la funcionalidad OCR en sus proyectos.

Personalizable: IronOCR ofrece varias opciones para ajustar los resultados del OCR, garantizando una extracción de datos óptima para su caso de uso específico.

4. Cómo funciona IronOCR

IronOCR emplea algoritmos OCR avanzados para reconocer y extraer texto de imágenes y documentos. Puede procesar varios formatos, como JPEG, PNG, TIFF y PDF. La biblioteca lee el archivo de entrada, reconoce el texto que contiene y genera el texto extraído en forma de cadena, que puede procesarse o almacenarse según sea necesario. IronOCR también utiliza visión por ordenador para obtener los mejores resultados.

5. Requisitos previos para utilizar IronOCR

Para empezar a utilizar IronOCR para la extracción de datos de recibos, primero tendrá que instalar el paquete IronOCR. Esto puede hacerse fácilmente a través de NuGet, el gestor de paquetes para .NET. Sólo tienes que abrir tu proyecto en Visual Studio y seguir estos pasos:

  1. Haga clic con el botón derecho en su proyecto en el Explorador de soluciones y seleccione "Gestionar paquetes NuGet".
  2. En la ventana del gestor de paquetes NuGet, busque "IronOCR".
  3. Seleccione el paquete IronOcr y haga clic en "Instalar".

    Extracción de datos de recibos OCR (Tutorial paso a paso), Figura 1: Búsqueda del paquete IronOcr en la interfaz de usuario del gestor de paquetes NuGet

     **Busque el paquete `IronOcr` en la interfaz de usuario del Gestor de paquetes NuGet**.

6. Preparación de la imagen del recibo

Antes de extraer los datos del recibo, querrá asegurarse de que las imágenes del recibo son de alta calidad para mejorar la precisión del proceso API de OCR de recibos. Aquí tienes algunos consejos para capturar una buena imagen de tu recibo:

  1. Utiliza un documento escaneado. Puede utilizar un escáner de alta resolución para escanear recibos.
  2. Asegúrese de que el recibo está bien iluminado y libre de sombras.
  3. Alise las arrugas o pliegues del recibo para que no quede oculta ninguna información clave.
  4. Asegúrese de que el texto del recibo es claro y no está emborronado para mejorar el procesamiento de los recibos.

    Extracción de datos de recibos OCR (tutorial paso a paso), Figura 2: Ejemplo de imagen de recibo para la extracción de texto

     **Ejemplo de imagen de recibo para extracción de texto**

7. Realización de OCR en la imagen del recibo

Con IronOCR instalado y la imagen de su recibo lista, es hora de realizar el proceso de OCR. En su aplicación .NET, utilice el siguiente fragmento de código:

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}
using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}
Imports IronOcr

Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
	Dim result = ocr.Read(ocrInput)
	Console.WriteLine(result.Text)
End Using
VB   C#

Explicación del Código

using IronOcr;
using IronOcr;
Imports IronOcr
VB   C#

Esta línea importa la biblioteca IronOCR en su aplicación .NET, permitiéndole acceder a sus funciones.

var ocr = new IronTesseract();
var ocr = new IronTesseract();
Dim ocr = New IronTesseract()
VB   C#

Esta línea crea una nueva instancia de IronTesseract la clase principal responsable de las operaciones OCR en IronOCR.

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
VB   C#

Aquí se crea una nueva instancia del OcrInput que representa la imagen de entrada para el proceso de OCR. El @"ruta/a/su/recibo/imagen.png " debe sustituirse por la ruta real del archivo de la imagen de su recibo. La sentencia using garantiza que los recursos asignados a la instancia OcrInput se liberen correctamente una vez finalizada la operación de OCR.

var result = Ocr.Read(ocrInput);
var result = Ocr.Read(ocrInput);
Dim result = Ocr.Read(ocrInput)
VB   C#

Esta línea llama al Leer de la instancia IronTesseract, pasando el objeto OcrInput como parámetro. El método Read procesa la imagen de entrada y realiza la operación OCR, reconociendo y extrayendo el texto de la imagen. Comenzará el proceso de reconocimiento de recibos.

Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text)
VB   C#

Por último, esta línea muestra el texto extraído en la consola. El objeto result, que es una instancia del método OcrResult contiene el texto reconocido e información adicional sobre el proceso de OCR. El texto extraído puede visualizarse accediendo a la propiedad Text del objeto result.

Extracción de datos de recibos OCR (tutorial paso a paso), Figura 3: Salida de textos extraídos

Salida de los textos extraídos

Ajuste de los resultados del OCR

IronOCR ofrece varias opciones para mejorar la precisión y el rendimiento del OCR. Entre ellas se incluyen el preprocesamiento de la imagen, el ajuste de la configuración del motor de OCR y la elección del idioma adecuado para el recibo.

Preprocesamiento de imágenes

Puedes mejorar los resultados del OCR aplicando técnicas de preprocesamiento de imágenes como:

  1. Deskewing: Corrige cualquier rotación o inclinación de la imagen.
  2. Eliminación de ruido: Mejora la legibilidad del texto eliminando el ruido de las imágenes.

    He aquí un ejemplo de cómo aplicar estas técnicas:

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Imports IronOcr

Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
	input.DeNoise()
	input.DeSkew()

	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
VB   C#

Selección de idioma

IronOCR es compatible con más de 125 idiomas, y elegir el idioma correcto para su recibo puede mejorar significativamente los resultados del OCR. Para especificar el idioma, añada la siguiente línea a su código:

ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English
VB   C#

Extracción de datos de los resultados del OCR

Una vez finalizado el proceso de OCR, es hora de extraer información específica del texto. En función de sus necesidades, es posible que desee extraer datos como:

  1. Nombre y dirección de la tienda.
  2. Fecha y hora de la compra.
  3. Nombres y precios de los artículos.
  4. Subtotal, impuestos e importe total.

    Para ello, puede utilizar expresiones regulares o técnicas de manipulación de cadenas en su aplicación .NET. Por ejemplo, puede extraer la fecha del resultado del OCR utilizando el siguiente fragmento de código:

using System.Text.RegularExpressions;

//Resto del Código

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}
using System.Text.RegularExpressions;

//Resto del Código

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

Puede crear patrones similares para otros datos que necesite extraer del recibo.

Almacenamiento y análisis de los datos extraídos

Ahora que ha extraído la información relevante de su recibo, puede almacenarla en una base de datos, analizarla o exportarla a otros formatos de archivo como CSV, JSON o Excel.

Conclusión

En conclusión, el OCR de recibos con IronOCR es una solución innovadora y eficaz para digitalizar y gestionar sus datos financieros; Con IronOCR, puede sustituir la introducción manual de datos. Siguiendo esta guía paso a paso, podrá aprovechar la potencia de IronOCR para mejorar el seguimiento de sus gastos y el análisis de sus datos. Lo mejor es que IronOCR ofrece un prueba gratuita que le permite experimentar sus capacidades sin ningún compromiso.

Tras el periodo de prueba, si decide seguir utilizando IronOCR, la licencia parte de $599, lo que supone una forma rentable de aprovechar las ventajas de la tecnología OCR en sus aplicaciones.

< ANTERIOR
Cómo leer texto de una imagen en Blazor
SIGUIENTE >
OCR con visión por ordenador (ejemplo de tutorial)

¿Listo para empezar? Versión: 2024.7 recién publicada

Descarga gratuita de NuGet Descargas totales: 2,012,139 Ver licencias >
123