Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
El OCR de recibos con IronOCR cambia las reglas del juego tanto para empresas como para particulares. El proceso permite extraer información importante de recibos físicos y convertirlos en datos digitales. Este artículo le mostrará paso a paso cómo utilizar IronOCR para sacar el máximo partido a sus recibos.
El reconocimiento óptico de caracteres, o OCR (Optical Character Recognition), es una tecnología que permite a los ordenadores leer y comprender texto a partir de imágenes o documentos escaneados. Al convertir texto manuscrito o impreso en texto legible por máquina, el OCR permite almacenar, procesar y analizar la información contenida en documentos físicos.
IronOCR es un OCR(Reconocimiento óptico de caracteres) para desarrolladores C# y .NET. Permite a los desarrolladoresextraer texto de imágenes, PDFsy otros formatos de documento. IronOCR se basa en el popularMotor OCR Tesseract y añade funciones adicionales, lo que la convierte en la opción ideal para diversas aplicaciones, incluido el OCR de recibos.
Las siguientes son algunas de las principales ventajas de utilizar IronOCR para la extracción de datos de recibos OCR:
Alta precisión: IronOCR proporciona una excelente precisión OCR API, garantizando una extracción de datos fiable de recibos y otros documentos.
**Asistencia multilingüe: IronOCR es compatible con más de 125 idiomas, lo que lo hace idóneo para aplicaciones globales.
Fácil de usar: La librería ofrece una API sencilla e intuitiva, lo que facilita a los desarrolladores la implementación de la funcionalidad OCR en sus proyectos.
Personalizable: IronOCRofrece varias opciones para ajustar los resultados del OCR, garantizando una extracción de datos óptima para su caso de uso específico.
IronOCR emplea algoritmos OCR avanzados para reconocer y extraer texto de imágenes y documentos. Puede procesar varios formatos, como JPEG, PNG, TIFF y PDF. La biblioteca lee el archivo de entrada, reconoce el texto que contiene y genera el texto extraído en forma de cadena, que puede procesarse o almacenarse según sea necesario. IronOCR también utilizavisión por ordenador para obtener los mejores resultados.
Para empezar a utilizar IronOCR para la extracción de datos de recibos, primero tendrá que instalar el paquete IronOCR. Esto puede hacerse fácilmente a través de NuGet, el gestor de paquetes para .NET. Sólo tienes que abrir tu proyecto en Visual Studio y seguir estos pasos:
Haga clic con el botón derecho en su proyecto en el Explorador de soluciones y seleccione "Gestionar paquetes NuGet".
En la ventana del gestor de paquetes NuGet, busque "IronOCR".
Seleccione el paquete IronOcr
y haga clic en "Instalar".
Busque el paquete IronOcr
en la interfaz de usuario del Gestor de paquetes NuGet.
Antes de extraer los datos del recibo, querrá asegurarse de que las imágenes del recibo son de alta calidad para mejorar la precisión del proceso API de OCR de recibos. Aquí tienes algunos consejos para capturar una buena imagen de tu recibo:
Utiliza un documento escaneado. Puede utilizar un escáner de alta resolución para escanear recibos.
Asegúrese de que el recibo está bien iluminado y libre de sombras.
Alise las arrugas o pliegues del recibo para que no quede oculta ninguna información clave.
Asegúrese de que el texto del recibo es claro y no está emborronado para mejorar el procesamiento de los recibos.
Ejemplo de imagen de recibo para extracción de texto
Con IronOCR instalado y la imagen de su recibo lista, es hora de realizar el proceso de OCR. En su aplicación .NET, utilice el siguiente fragmento de código:
using IronOcr;
var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
var result = ocr.Read(ocrInput);
Console.WriteLine(result.Text);
}
using IronOcr;
var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
var result = ocr.Read(ocrInput);
Console.WriteLine(result.Text);
}
Imports IronOcr
Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
Dim result = ocr.Read(ocrInput)
Console.WriteLine(result.Text)
End Using
using IronOcr;
using IronOcr;
Imports IronOcr
Esta línea importa la biblioteca IronOCR en su aplicación .NET, permitiéndole acceder a sus funciones.
var ocr = new IronTesseract();
var ocr = new IronTesseract();
Dim ocr = New IronTesseract()
Esta línea crea una nueva instancia deIronTesseract
la clase principal responsable de las operaciones OCR en IronOCR.
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
Aquí se crea una nueva instancia delOcrInput
que representa la imagen de entrada para el proceso de OCR. El @"ruta/a/su/recibo/imagen.png " debe sustituirse por la ruta real del archivo de la imagen de su recibo. La sentencia using
garantiza que los recursos asignados a la instancia OcrInput
se liberen correctamente una vez finalizada la operación de OCR.
var result = Ocr.Read(ocrInput);
var result = Ocr.Read(ocrInput);
Dim result = Ocr.Read(ocrInput)
Esta línea llama alLeer
de la instancia IronTesseract
, pasando el objeto OcrInput
como parámetro. El método Read
procesa la imagen de entrada y realiza la operación OCR, reconociendo y extrayendo el texto de la imagen. Comenzará el proceso de reconocimiento de recibos.
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text)
Por último, esta línea muestra el texto extraído en la consola. El objeto result
, que es una instancia del métodoOcrResult
contiene el texto reconocido e información adicional sobre el proceso de OCR. El texto extraído puede visualizarse accediendo a la propiedad Text
del objeto result
.
Salida de los textos extraídos
IronOCR ofrece varias opciones para mejorar la precisión y el rendimiento del OCR. Entre ellas se incluyen el preprocesamiento de la imagen, el ajuste de la configuración del motor de OCR y la elección del idioma adecuado para el recibo.
Puedes mejorar los resultados del OCR aplicando técnicas de preprocesamiento de imágenes como:
Deskewing: Corrige cualquier rotación o inclinación de la imagen.
Eliminación de ruido: Mejora la legibilidad del texto eliminando el ruido de las imágenes.
He aquí un ejemplo de cómo aplicar estas técnicas:
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
input.DeNoise();
input.DeSkew();
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
input.DeNoise();
input.DeSkew();
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
Imports IronOcr
Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
input.DeNoise()
input.DeSkew()
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
IronOCR es compatible con más de 125 idiomas, y elegir el idioma correcto para su recibo puede mejorar significativamente los resultados del OCR. Para especificar el idioma, añada la siguiente línea a su código:
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English
Una vez finalizado el proceso de OCR, es hora de extraer información específica del texto. En función de sus necesidades, es posible que desee extraer datos como:
Nombre y dirección de la tienda.
Fecha y hora de la compra.
Nombres y precios de los artículos.
Subtotal, impuestos e importe total.
Para ello, puede utilizar expresiones regulares o técnicas de manipulación de cadenas en su aplicación .NET. Por ejemplo, puede extraer la fecha del resultado del OCR utilizando el siguiente fragmento de código:
using System.Text.RegularExpressions;
//Rest of the Code
var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
var DateValue = DateTime.Parse(DateMatch.Value);
Console.WriteLine("Date: " + DateValue);
}
using System.Text.RegularExpressions;
//Rest of the Code
var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
var DateValue = DateTime.Parse(DateMatch.Value);
Console.WriteLine("Date: " + DateValue);
}
Imports System.Text.RegularExpressions
'Rest of the Code
Private DatePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"
Private DateMatch = Regex.Match(Result.Text, DatePattern)
If DateMatch.Success Then
Dim DateValue = DateTime.Parse(DateMatch.Value)
Console.WriteLine("Date: " & DateValue)
End If
Puede crear patrones similares para otros datos que necesite extraer del recibo.
Ahora que ha extraído la información relevante de su recibo, puede almacenarla en una base de datos, analizarla o exportarla a otros formatos de archivo como CSV, JSON o Excel.
En conclusión, el OCR de recibos con IronOCR es una solución innovadora y eficaz para digitalizar y gestionar sus datos financieros; Con IronOCR, puede sustituir la introducción manual de datos. Siguiendo esta guía paso a paso, podrá aprovechar la potencia de IronOCR para mejorar el seguimiento de sus gastos y el análisis de sus datos. Lo mejor es que IronOCR ofrece unprueba gratuitaque le permite experimentar sus capacidades sin ningún compromiso.
Tras el periodo de prueba, si decide seguir utilizando IronOCR, la licencia parte de $749, lo que supone una forma rentable de aprovechar las ventajas de la tecnología OCR en sus aplicaciones.
9 productos API .NET para sus documentos de oficina