Saltar al pie de página
USANDO IRONOCR
HTML a PDF: Un tutorial rápido para C# .NET

Extracción de datos de tablas de imágenes escaneadas usando IronOCR: resumen de demostración en vivo

La extracción de datos de imágenes escaneadas es un desafío común, especialmente cuando involucra datos estructurados como tablas. Con las capacidades avanzadas de aprendizaje automático de IronOCR, ahora puede extraer sin problemas los datos de las tablas, incluidos los valores de las celdas y sus posiciones. En esta demostración, Shadman Majid, Ingeniero de Ventas de Software, guía paso a paso la implementación del código, mientras Anne Lazarakis, Directora de Ventas y Marketing, comparte casos de uso del mundo real de clientes de Iron Software.

Casos de uso del mundo real

Ironocr Extract Table Data 4 related to Casos de uso del mundo real

Explicado por Anne Lazarakis, Directora de Ventas y Marketing*

Procesamiento de reclamaciones de seguros (Opyn Market)

En la industria de seguros de salud altamente regulada en los EE. UU., empresas como Opyn Market todavía reciben muchos documentos por fax. Estos documentos escaneados a menudo contienen datos tabulares que deben ser extraídos con precisión e ingresados en los sistemas internos. Con IronOCR, pueden automatizar este proceso, reduciendo el trabajo manual y eliminando el potencial de error humano.

Logística y Distribución de Alimentos (iPAP)

iPAP, el mayor distribuidor de queso en los EE. UU., utiliza IronOCR para gestionar más de 200 pedidos de clientes. Sus facturas vienen en varios formatos con diseños de tablas inconsistentes. IronOCR les ayuda a extraer números de pedidos, fechas de envío y detalles de los artículos de los documentos escaneados de manera eficiente, incluso con formateos variados. Esta automatización les ha ahorrado entre $40,000 y $45,000 anualmente.

Ironocr Extract Table Data 2 related to Logística y Distribución de Alimentos (iPAP)


Descripción técnica

Ironocr Extract Table Data 5 related to Descripción técnica

Sesión de Programación en Vivo con Shadman Majid, Ingeniero de Ventas de Software*

IronOCR utiliza modelos de aprendizaje automático patentados para detectar y extraer datos de tablas de documentos escaneados. Esta función soporta:

  • Extracción de celdas de tabla y coordenadas
  • OCR de imágenes escaneadas y PDFs de múltiples cuadros
  • Compatibilidad con C#, VB.NET, .NET Standard, .NET Framework y .NET Core

Ironocr Extract Table Data 3 related to Descripción técnica

Para acceder a esta funcionalidad, necesitarás:

Estos paquetes incluyen los modelos de ML entrenados necesarios para la detección de la estructura de tablas y OCR preciso.

Código de ejemplo para extraer tablas

A continuación se muestra un fragmento de código C# de ejemplo que demuestra cómo usar IronOCR para extraer datos de tablas de imágenes:

// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
' Import the necessary IronOCR namespaces
Imports IronOcr

' Initialize the IronTesseract to handle OCR processes
Private Ocr = New IronTesseract()

' Load the image containing the table
Using input = New OcrInput("invoice.jpg")
	' Perform OCR and extract text data including tables
	Dim result = Ocr.Read(input)

	' Iterate through each page in the document
	For Each page In result.Pages
		' Iterate through each table found on the page
		For Each table In page.Tables
			Console.WriteLine("Table found:")
			' Iterate through each row in the table
			For Each row In table.Rows
				' Convert the row of cells to a comma-separated string
				Dim cells = String.Join(", ", row.Cells.Select(Function(cell) cell.Text))
				Console.WriteLine(cells)
			Next row
		Next table
	Next page
End Using
$vbLabelText   $csharpLabel
  • Cargando una Imagen: El script comienza inicializando el motor IronTesseract y cargando un archivo de imagen llamado invoice.jpg que desea procesar.
  • Ejecución de OCR: Realiza OCR en la entrada para extraer datos de texto, especialmente centrado en cualquier tabla.
  • Extracción de Tablas: El script itera a través de cada tabla detectada y sus filas, produciendo el contenido de las celdas de manera estructurada.

Asegúrese de haber instalado los paquetes NuGet necesarios para IronOCR antes de ejecutar este script.


Conclusión

IronOCR facilita la automatización de la extracción de datos complejos de tablas de documentos escaneados. Ya sea en el sector de la salud, logística, finanzas o manufactura, esta solución ofrece confiabilidad, precisión y eficiencia en ahorro de costos. Con solo unas pocas líneas de código, puede eliminar la entrada manual de datos y reducir el error humano.

¿Quieres verlo en acción? Reserve una demostración en vivo con uno de nuestros ingenieros aquí.

Preguntas Frecuentes

¿Cómo puedo extraer datos de tabla de imágenes escaneadas usando C#?

Puedes utilizar las capacidades avanzadas de aprendizaje automático de IronOCR para extraer datos de tablas de imágenes escaneadas. El proceso implica utilizar el motor IronTesseract para realizar OCR en la imagen y extraer información, incluidos los valores de las celdas y sus coordenadas.

¿Cuáles son algunas aplicaciones reales de la extracción de datos de tabla de documentos escaneados?

Las aplicaciones reales incluyen automatizar el procesamiento de reclamaciones de seguros extrayendo datos tabulares de documentos fax y gestionar pedidos de clientes en logística, donde las facturas vienen en varios formatos con diseños de tabla inconsistentes, como lo demuestran empresas como Opyn Market e iPAP.

¿Qué capacidades técnicas proporciona IronOCR para la extracción de datos de tabla?

IronOCR ofrece capacidades como la extracción de celdas de tabla y coordenadas, OCR de imágenes escaneadas y PDFs de múltiples marcos, y compatibilidad con C#, VB.NET, .NET Standard, .NET Framework y .NET Core.

¿Qué pasos están involucrados en el código para extraer datos de tabla utilizando IronOCR?

El proceso implica inicializar el motor IronTesseract, cargar la imagen, realizar OCR para extraer datos de texto y recorrer cada tabla detectada y sus filas para mostrar el contenido de las celdas.

¿Qué paquetes se requieren para extraer datos de tabla con IronOCR?

Necesitas el paquete NuGet IronOCR junto con el paquete IronOcr.Extensions.AdvancedScanning para utilizar los modelos de ML entrenados necesarios para la detección de tablas y la OCR precisa.

¿Cómo mejora IronOCR la eficiencia en las industrias de salud y logística?

IronOCR reduce el trabajo manual y los errores humanos al automatizar la extracción de datos de tabla compleja de documentos escaneados, ofreciendo una eficiencia sustancial y ahorro de costos para industrias como salud y logística.

¿Puedo ver una demostración en vivo de las capacidades de IronOCR?

Sí, puedes reservar una demostración en vivo con uno de los ingenieros de Iron Software para ver IronOCR en acción y aprender más sobre sus capacidades de extracción de datos de tabla.

Kannaopat Udonpant
Ingeniero de Software
Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...
Leer más