Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Reconocimiento óptico de caracteres, o OCRes una técnica que permite a los ordenadores identificar y extraer texto de imágenes o documentos escaneados. El principal objetivo del software de OCR es convertir las fotos que contienen texto en datos de texto legibles por máquina. Numerosos sectores pueden beneficiarse de la amplia gama de usos de esta tecnología, que agiliza la introducción de datos, la digitalización de documentos y la automatización de procedimientos como los de sus cuentas por pagar. En este artículo, veremos el uso de soluciones de OCR para procesar facturas y cómo hace que el procesamiento manual de facturas quede obsoleto.
Instale el IronOCR Biblioteca C#.
Crear un nuevo proyecto C# en Visual Studio
Examine una biblioteca de C# repleta de funciones para realizar OCR en el momento de la recepción.
Utilizando Tesseract, extraer datos de los recibos
Buscar datos concretos en el resultado del texto extraído.
Las empresas pueden transformar facturas basadas en imágenes o escaneadas en texto legible por máquina utilizando el procesamiento de facturas OCR, que automatiza la extracción de texto y datos de las facturas. Gracias a esta automatización, aumenta la eficacia de los procedimientos financieros en general, disminuye la introducción manual de datos y se agiliza el tratamiento de las facturas.
Reconocimiento óptico de caracteres (OCR) es posible para los desarrolladores que utilizan el lenguaje de programación C# gracias a IronOCR**una biblioteca .NET. IronOCR, creado por Iron Software, es una herramienta útil para aplicaciones que necesitan reconocimiento automático de texto, ya que permite extraer texto de fotos, documentos escaneados y archivos PDF. Para extraer texto y datos de las facturas, debe integrar la biblioteca IronOCR en su aplicación .NET para el procesamiento automatizado de facturas mediante IronOCR.
IronOCR ayuda a evitar el fraude con el uso de algoritmos de IA. Esto hace que los errores, el fraude y las facturas duplicadas se identifiquen rápidamente. Reduzca los errores con una extracción de datos de facturas OCR superior, para que pueda evitar los errores causados por la introducción humana de datos. Más información sobre el cheque IronOCR aquí.
Las características más destacadas de IronOCR son:
El software OCR escanea y extrae texto de información escaneada o fotografiada procesando las imágenes o documentos adquiridos. El motor de OCR interpreta el diseño, las palabras y los caracteres del documento.
Es fundamental recordar que la precisión de los ajustes de OCR, la complejidad de las facturas y el calibre de las fotos introducidas influyen en el éxito de la solución. Además, el uso de las API de IronOCR y la comprensión de las capacidades particulares que ofrece la biblioteca pueden ser pasos necesarios en el proceso de integración. Para obtener los detalles y recomendaciones más actualizados, consulte siempre la documentación oficial de IronOCR.
Navegue hasta el "menú archivo" tras iniciar el programa Visual Studio. Vaya a "nuevo proyecto" y elija "Aplicación de consola". En este post, crearemos documentos PDF utilizando un programa de consola.
En el cuadro de texto correspondiente, escriba el nombre del proyecto y elija la ubicación del archivo. A continuación, como se ve en la imagen de abajo, haga clic en el botón Crear y elija el .NET Framework necesario.
Una vez elegida la aplicación, el proyecto de Visual Studio creará su estructura. Si has elegido las versiones de consola, Windows o web, se abrirá el archivo program.cs, para que puedas añadir código y construir/ejecutar la aplicación.
Para probar el código, podemos añadir la biblioteca después.
Es posible instalar paquetes directamente en la solución mediante la herramienta de gestión de paquetes NuGet de Visual Studio. La captura de abajo se puede utilizar para ver el Gestor de paquetes NuGet.
Dispone de un cuadro de búsqueda para mostrar la lista de paquetes del sitio web de NuGet. Como se puede ver en la siguiente captura de pantalla, tenemos que buscar en el gestor de paquetes la frase IronOCR:
El gráfico anterior podría proporcionarnos una lista de términos de búsqueda pertinentes. Tenemos que hacer la selección necesaria para instalar el paquete de soluciones.
IronOCR es una potente biblioteca de OCR que puede utilizarse para extraer datos y leer datos de facturas. Con IronOCR, puede tomar una foto de un recibo y utilizarla para convertirla en texto legible por máquina, fácil de procesar y analizar, sin comprometer la privacidad de los datos. El OCR de facturas nos permite extraer los datos de las facturas en formato digital.
Este es un ejemplo de cómo IronOCR trabaja para procesar facturas de proveedores y extrae texto de facturas en papel.
using System;
using System.Collections.Generic;
using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
Input.AddImage(@"invoice.png"); // adding the example invoice to read
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
Console.ReadKey();
}
using System;
using System.Collections.Generic;
using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
Input.AddImage(@"invoice.png"); // adding the example invoice to read
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
Console.ReadKey();
}
Imports System
Imports System.Collections.Generic
Imports IronOcr
Private Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
Input.AddImage("invoice.png") ' adding the example invoice to read
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
Console.ReadKey()
End Using
A continuación se muestra el resultado del código mencionado:
El ejemplo anterior muestra que IronOCR nos ayudó a OCR y mostrar los datos extraídos en la consola.
Además del texto, los códigos de barras de los recibos pueden escanearse con IronOCR. Para utilizar IronOCR para escanear códigos de barras en recibos, debe utilizar la función ReadBarCodes
junto con la clase BarcodeReader
.
Esta es una ilustración de cómo utilizar IronOCR para decodificar una imagen de un recibo para la lectura de códigos de barras.
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput("invoice.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput("invoice.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
Dim ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("invoice.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
For Each barcode In ocrResult.Barcodes
Console.WriteLine(barcode.Value)
Next barcode
End Using
Aunque IronOCR ofrece sólidas capacidades de OCR, es vital recordar que todo el flujo de trabajo de procesamiento de facturas puede requerir también otros elementos como la validación de datos, la lógica empresarial y la conectividad del sistema financiero. Es posible que necesite combinar IronOCR con herramientas o piezas adicionales para conseguir una solución completa de procesamiento de facturas, en función de su caso de uso particular.
Resultado:
Para saber más sobre la demostración en línea de IronOCR, consulte aquí.
Como reconocimiento óptico de caracteres sólido y adaptable (OCR) para desarrolladores de C#, IronOCR destaca, en conclusión. La extracción de texto de fotos, documentos escaneados y archivos PDF es posible y sencilla gracias a esta colección completa de funciones que ofrece la biblioteca .NET de Iron Software.
Por último, IronOCR es una solución de OCR extraordinaria que ofrece una integración, flexibilidad y precisión extraordinarias. Por su incomparable precisión, sus avanzados algoritmos y su capacidad para identificar una amplia gama de formatos de documentos, incluidos los manuscritos, IronOCR es la mejor solución de OCR que existe actualmente en el mercado y proporciona mejores documentos con ejemplos de código que permiten a los principiantes aprender de forma rápida y sencilla.
Se puede acceder a la rentable edición de desarrollo de IronOCR, y la compra del paquete IronOCR concede una licencia de por vida. Dado que las ofertas del paquete IronOCR comienzan en $599, un coste único para numerosos sistemas, ofrece un valor excepcional. Proporciona asistencia técnica en línea las 24 horas del día, los 7 días de la semana, a los usuarios con licencia de IronOCR. Consulte el IronOCR sitio web para más información sobre las tasas.
9 productos API .NET para sus documentos de oficina