Passer au contenu du pied de page
UTILISATION D'IRONOCR
HTML en PDF : Un tutoriel rapide pour C# .NET

Extraction de données de tableau à partir d'images numérisées avec IronOCR : Récapitulatif de la démonstration en direct

Extracting data from scanned images is a common challenge, especially when it involves structured data like tables. With IronOCR's advanced machine learning capabilities, you can now seamlessly extract table data including cell values and their positions. In this demo, Shadman Majid, Software Sales Engineer, walks through the code implementation step-by-step, while Anne Lazarakis, Sales and Marketing Director, shares real-world use cases from Iron Software customers.

Real-World Use Cases

Ironocr Extract Table Data 4 related to Real-World Use Cases

Explained by Anne Lazarakis, Sales and Marketing Director*

Insurance Claim Processing (Opyn Market)

In the highly regulated healthcare insurance industry in the U.S., companies like Opyn Market still receive many documents via fax. These scanned documents often contain tabular data that must be accurately extracted and entered into internal systems. With IronOCR, they’re able to automate this process, reducing manual work and eliminating the potential for human error.

Logistics & Food Distribution (iPAP)

iPAP, the largest cheese distributor in the U.S., uses IronOCR to manage over 200 client orders. Their invoices come in various formats with inconsistent table layouts. IronOCR helps them extract purchase order numbers, shipment dates, and item details from scanned documents efficiently, even with varied formatting. This automation has saved them between $40,000 and $45,000 annually.

Ironocr Extract Table Data 2 related to Logistics & Food Distribution (iPAP)


Technical Overview

Ironocr Extract Table Data 5 related to Technical Overview

Live Coding Session With Shadman Majid, Software Sales Engineer*

IronOCR uses proprietary machine learning models to detect and extract table data from scanned documents. This feature supports:

  • Extraction of table cells and coordinates
  • OCR of scanned images and multi-frame PDFs
  • Compatibility with C#, VB.NET, .NET Standard, .NET Framework, and .NET Core

Ironocr Extract Table Data 3 related to Technical Overview

To access this functionality, you'll need:

These packages include the trained ML models necessary for table structure detection and accurate OCR.

Example Code for Extracting Tables

Below is a sample C# code snippet that demonstrates how to use IronOCR for extracting table data from images:

// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
' Import the necessary IronOCR namespaces
Imports IronOcr

' Initialize the IronTesseract to handle OCR processes
Private Ocr = New IronTesseract()

' Load the image containing the table
Using input = New OcrInput("invoice.jpg")
	' Perform OCR and extract text data including tables
	Dim result = Ocr.Read(input)

	' Iterate through each page in the document
	For Each page In result.Pages
		' Iterate through each table found on the page
		For Each table In page.Tables
			Console.WriteLine("Table found:")
			' Iterate through each row in the table
			For Each row In table.Rows
				' Convert the row of cells to a comma-separated string
				Dim cells = String.Join(", ", row.Cells.Select(Function(cell) cell.Text))
				Console.WriteLine(cells)
			Next row
		Next table
	Next page
End Using
$vbLabelText   $csharpLabel
  • Loading an Image: The script begins by initializing the IronTesseract engine and loading an image file named invoice.jpg that you want to process.
  • OCR Execution: It performs OCR on the input to extract text data, particularly focusing on any tables.
  • Table Extraction: The script iterates through each detected table and its rows, outputting cell contents in a structured way.

Ensure you have installed the necessary NuGet packages for IronOCR before running this script.


Conclusion

IronOCR makes it easy to automate the extraction of complex table data from scanned documents. Whether you're in healthcare, logistics, finance, or manufacturing, this solution offers reliability, accuracy, and cost-saving efficiency. With just a few lines of code, you can eliminate manual data entry and reduce human error.

Want to see it in action? Book a live Demo with one of our engineers here.

Questions Fréquemment Posées

Comment puis-je extraire des données de table à partir d'images scannées en utilisant C# ?

Vous pouvez utiliser les capacités avancées d'apprentissage automatique d'IronOCR pour extraire des données de table à partir d'images scannées. Le processus implique l'utilisation du moteur IronTesseract pour effectuer l'OCR sur l'image et extraire les informations, y compris les valeurs des cellules et leurs coordonnées.

Quelles sont les applications pratiques de l'extraction de données de table à partir de documents scannés ?

Les applications pratiques incluent l'automatisation du traitement des réclamations d'assurance en extrayant des données tabulaires à partir de documents faxés et la gestion des commandes clients dans la logistique, où les factures se présentent sous divers formats avec des mises en page de tables incohérentes, comme démontré par des entreprises telles qu'Opyn Market et iPAP.

Quelles capacités techniques IronOCR offre-t-il pour l'extraction de données de table ?

IronOCR offre des capacités telles que l'extraction de cellules et de coordonnées de table, l'OCR d'images scannées et de PDF multi-pages, et la compatibilité avec C#, VB.NET, .NET Standard, .NET Framework et .NET Core.

Quelles étapes sont impliquées dans le code pour extraire des données de table en utilisant IronOCR ?

Le processus implique l'initialisation du moteur IronTesseract, le chargement de l'image, l'exécution de l'OCR pour extraire les données textuelles, et l'itération à travers chaque table détectée et ses lignes pour afficher le contenu des cellules.

Quels packages sont nécessaires pour extraire des données de table avec IronOCR ?

Vous avez besoin du package NuGet IronOCR ainsi que du package IronOcr.Extensions.AdvancedScanning pour utiliser les modèles ML entraînés nécessaires pour la détection de tables et un OCR précis.

Comment IronOCR améliore-t-il l'efficacité dans les secteurs de la santé et de la logistique ?

IronOCR réduit le travail manuel et les erreurs humaines en automatisant l'extraction de données de table complexes à partir de documents scannés, offrant des gains d'efficacité et des économies substantielles pour des industries comme la santé et la logistique.

Puis-je voir une démonstration en direct des capacités d'IronOCR ?

Oui, vous pouvez réserver une démo en direct avec un des ingénieurs d'Iron Software pour voir IronOCR en action et en apprendre davantage sur ses capacités à extraire des données de table.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite