Extracción de datos de tablas de imágenes escaneadas usando IronOCR: resumen de demostración en vivo
La extracción de datos de imágenes escaneadas es un desafío común, especialmente cuando involucra datos estructurados como tablas. Con las capacidades avanzadas de aprendizaje automático de IronOCR, ahora puede extraer sin problemas los datos de las tablas, incluidos los valores de las celdas y sus posiciones. En esta demostración, Shadman Majid, Ingeniero de Ventas de Software, guía paso a paso la implementación del código, mientras Anne Lazarakis, Directora de Ventas y Marketing, comparte casos de uso del mundo real de clientes de Iron Software.
Casos de uso del mundo real

Explicado por Anne Lazarakis, Directora de Ventas y Marketing*
Procesamiento de reclamaciones de seguros (Opyn Market)
En la industria de seguros de salud altamente regulada en los EE. UU., empresas como Opyn Market todavía reciben muchos documentos por fax. Estos documentos escaneados a menudo contienen datos tabulares que deben ser extraídos con precisión e ingresados en los sistemas internos. Con IronOCR, pueden automatizar este proceso, reduciendo el trabajo manual y eliminando el potencial de error humano.
Logística y Distribución de Alimentos (iPAP)
iPAP, el mayor distribuidor de queso en los EE. UU., utiliza IronOCR para gestionar más de 200 pedidos de clientes. Sus facturas vienen en varios formatos con diseños de tablas inconsistentes. IronOCR les ayuda a extraer números de pedidos, fechas de envío y detalles de los artículos de los documentos escaneados de manera eficiente, incluso con formateos variados. Esta automatización les ha ahorrado entre $40,000 y $45,000 anualmente.

Descripción técnica

Sesión de Programación en Vivo con Shadman Majid, Ingeniero de Ventas de Software*
IronOCR utiliza modelos de aprendizaje automático patentados para detectar y extraer datos de tablas de documentos escaneados. Esta función soporta:
- Extracción de celdas de tabla y coordenadas
- OCR de imágenes escaneadas y PDFs de múltiples cuadros
- Compatibilidad con C#, VB.NET, .NET Standard, .NET Framework y .NET Core

Para acceder a esta funcionalidad, necesitarás:
IronOCRpaquete NuGetIronOcr.Extensions.AdvancedScanningpaquete NuGet para la detección de tablas mediante modelos de ML
Estos paquetes incluyen los modelos de ML entrenados necesarios para la detección de la estructura de tablas y OCR preciso.
Código de ejemplo para extraer tablas
A continuación se muestra un fragmento de código C# de ejemplo que demuestra cómo usar IronOCR para extraer datos de tablas de imágenes:
// Import the necessary IronOCR namespaces
using IronOcr;
// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();
// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
// Perform OCR and extract text data including tables
var result = Ocr.Read(input);
// Iterate through each page in the document
foreach (var page in result.Pages)
{
// Iterate through each table found on the page
foreach (var table in page.Tables)
{
Console.WriteLine("Table found:");
// Iterate through each row in the table
foreach (var row in table.Rows)
{
// Convert the row of cells to a comma-separated string
var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
Console.WriteLine(cells);
}
}
}
}// Import the necessary IronOCR namespaces
using IronOcr;
// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();
// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
// Perform OCR and extract text data including tables
var result = Ocr.Read(input);
// Iterate through each page in the document
foreach (var page in result.Pages)
{
// Iterate through each table found on the page
foreach (var table in page.Tables)
{
Console.WriteLine("Table found:");
// Iterate through each row in the table
foreach (var row in table.Rows)
{
// Convert the row of cells to a comma-separated string
var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
Console.WriteLine(cells);
}
}
}
}- Cargando una Imagen: El script comienza inicializando el motor IronTesseract y cargando un archivo de imagen llamado
invoice.jpgque desea procesar. - Ejecución de OCR: Realiza OCR en la entrada para extraer datos de texto, especialmente centrado en cualquier tabla.
- Extracción de Tablas: El script itera a través de cada tabla detectada y sus filas, produciendo el contenido de las celdas de manera estructurada.
Asegúrese de haber instalado los paquetes NuGet necesarios para IronOCR antes de ejecutar este script.
Conclusión
IronOCR facilita la automatización de la extracción de datos complejos de tablas de documentos escaneados. Ya sea en el sector de la salud, logística, finanzas o manufactura, esta solución ofrece confiabilidad, precisión y eficiencia en ahorro de costos. Con solo unas pocas líneas de código, puede eliminar la entrada manual de datos y reducir el error humano.
¿Quieres verlo en acción? Reserve una demostración en vivo con uno de nuestros ingenieros aquí.
Preguntas Frecuentes
¿Cómo puedo extraer datos de tabla de imágenes escaneadas usando C#?
Puedes utilizar las capacidades avanzadas de aprendizaje automático de IronOCR para extraer datos de tablas de imágenes escaneadas. El proceso implica utilizar el motor IronTesseract para realizar OCR en la imagen y extraer información, incluidos los valores de las celdas y sus coordenadas.
¿Cuáles son algunas aplicaciones reales de la extracción de datos de tabla de documentos escaneados?
Las aplicaciones reales incluyen automatizar el procesamiento de reclamaciones de seguros extrayendo datos tabulares de documentos fax y gestionar pedidos de clientes en logística, donde las facturas vienen en varios formatos con diseños de tabla inconsistentes, como lo demuestran empresas como Opyn Market e iPAP.
¿Qué capacidades técnicas proporciona IronOCR para la extracción de datos de tabla?
IronOCR ofrece capacidades como la extracción de celdas de tabla y coordenadas, OCR de imágenes escaneadas y PDFs de múltiples marcos, y compatibilidad con C#, VB.NET, .NET Standard, .NET Framework y .NET Core.
¿Qué pasos están involucrados en el código para extraer datos de tabla utilizando IronOCR?
El proceso implica inicializar el motor IronTesseract, cargar la imagen, realizar OCR para extraer datos de texto y recorrer cada tabla detectada y sus filas para mostrar el contenido de las celdas.
¿Qué paquetes se requieren para extraer datos de tabla con IronOCR?
Necesitas el paquete NuGet IronOCR junto con el paquete IronOcr.Extensions.AdvancedScanning para utilizar los modelos de ML entrenados necesarios para la detección de tablas y la OCR precisa.
¿Cómo mejora IronOCR la eficiencia en las industrias de salud y logística?
IronOCR reduce el trabajo manual y los errores humanos al automatizar la extracción de datos de tabla compleja de documentos escaneados, ofreciendo una eficiencia sustancial y ahorro de costos para industrias como salud y logística.
¿Puedo ver una demostración en vivo de las capacidades de IronOCR?
Sí, puedes reservar una demostración en vivo con uno de los ingenieros de Iron Software para ver IronOCR en acción y aprender más sobre sus capacidades de extracción de datos de tabla.







