Passer au contenu du pied de page
UTILISATION D'IRONOCR
HTML en PDF : Un tutoriel rapide pour C# .NET

Extraction de données de tableau à partir d'images numérisées avec IronOCR : Récapitulatif de la démonstration en direct

L'extraction de données à partir d'images numérisées est un défi courant, surtout lorsqu'il s'agit de données structurées comme des tableaux. Grâce aux capacités avancées d'apprentissage automatique d'IronOCR, vous pouvez désormais extraire en toute transparence les données des tableaux, y compris les valeurs des cellules et leurs positions. Dans cette démonstration, Shadman Majid, ingénieur commercial en logiciels , présente étape par étape l'implémentation du code, tandis qu'Anne Lazarakis, directrice des ventes et du marketing , partage des cas d'utilisation concrets de clients d'Iron Software.

Cas d'utilisation concrets

Ironocr Extract Table Data 4 related to Cas d'utilisation concrets

Explications d'Anne Lazarakis, directrice des ventes et du marketing*

Traitement des demandes d'indemnisation (marché Opyn)

Dans le secteur de l'assurance maladie, très réglementé aux États-Unis, des entreprises comme Opyn Market reçoivent encore de nombreux documents par fax. Ces documents numérisés contiennent souvent des données tabulaires qui doivent être extraites et saisies avec précision dans les systèmes internes. Grâce à IronOCR, ils peuvent automatiser ce processus, réduisant ainsi le travail manuel et éliminant les risques d'erreur humaine.

Logistique et distribution alimentaire (iPAP)

iPAP , le plus grand distributeur de fromage aux États-Unis, utilise IronOCR pour gérer plus de 200 commandes clients. Leurs factures se présentent sous différents formats avec des mises en page de tableaux incohérentes. IronOCR les aide à extraire efficacement les numéros de bons de commande, les dates d'expédition et les détails des articles à partir de documents numérisés, même avec des formats variés. Cette automatisation leur a permis d'économiser entre 40 000 et 45 000 dollars par an.

Ironocr Extract Table Data 2 related to Logistique et distribution alimentaire (iPAP)


Aperçu technique

Ironocr Extract Table Data 5 related to Aperçu technique

Séance de codage en direct avec Shadman Majid , ingénieur commercial en logiciels*

IronOCR utilise des modèles d'apprentissage automatique propriétaires pour détecter et extraire les données tabulaires des documents numérisés. Cette fonctionnalité prend en charge :

  • Extraction des cellules et des coordonnées du tableau
  • OCR d'images numérisées et de PDF multi-images
  • Compatibilité avec C#, VB.NET, .NET Standard, .NET Framework et .NET Core

Ironocr Extract Table Data 3 related to Aperçu technique

Pour accéder à cette fonctionnalité, vous aurez besoin de :

Ces packages incluent les modèles d'apprentissage automatique entraînés nécessaires à la détection de la structure des tableaux et à une reconnaissance optique de caractères (OCR) précise.

Exemple de code pour l'extraction de tableaux

Voici un exemple de code C# qui illustre comment utiliser IronOCR pour extraire des données tabulaires à partir d'images :

// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
' Import the necessary IronOCR namespaces
Imports IronOcr

' Initialize the IronTesseract to handle OCR processes
Private Ocr = New IronTesseract()

' Load the image containing the table
Using input = New OcrInput("invoice.jpg")
	' Perform OCR and extract text data including tables
	Dim result = Ocr.Read(input)

	' Iterate through each page in the document
	For Each page In result.Pages
		' Iterate through each table found on the page
		For Each table In page.Tables
			Console.WriteLine("Table found:")
			' Iterate through each row in the table
			For Each row In table.Rows
				' Convert the row of cells to a comma-separated string
				Dim cells = String.Join(", ", row.Cells.Select(Function(cell) cell.Text))
				Console.WriteLine(cells)
			Next row
		Next table
	Next page
End Using
$vbLabelText   $csharpLabel
  • Chargement d'une image : Le script commence par initialiser le moteur IronTesseract et charger un fichier image nommé invoice.jpg que vous souhaitez traiter.
  • Exécution de la reconnaissance optique de caractères (OCR) : cette fonction effectue une reconnaissance optique de caractères (OCR) sur les données d'entrée afin d'en extraire les données textuelles, en se concentrant particulièrement sur les tableaux.
  • Extraction de tableaux : Le script parcourt chaque tableau détecté et ses lignes, en affichant le contenu des cellules de manière structurée.

Assurez-vous d'avoir installé les packages NuGet nécessaires pour IronOCR avant d'exécuter ce script.


Conclusion

IronOCR facilite l'automatisation de l'extraction de données tabulaires complexes à partir de documents numérisés. Que vous travailliez dans les secteurs de la santé, de la logistique, de la finance ou de la production industrielle, cette solution vous offre fiabilité, précision et efficacité, vous permettant ainsi de réaliser des économies. En quelques lignes de code seulement, vous pouvez éliminer la saisie manuelle de données et réduire les erreurs humaines.

Vous voulez le voir en action ? Réservez une démonstration en direct avec l'un de nos ingénieurs ici .

Questions Fréquemment Posées

Comment puis-je extraire des données de table à partir d'images scannées en utilisant C# ?

Vous pouvez utiliser les capacités avancées d'apprentissage automatique d'IronOCR pour extraire des données de table à partir d'images scannées. Le processus implique l'utilisation du moteur IronTesseract pour effectuer l'OCR sur l'image et extraire les informations, y compris les valeurs des cellules et leurs coordonnées.

Quelles sont les applications pratiques de l'extraction de données de table à partir de documents scannés ?

Les applications pratiques incluent l'automatisation du traitement des réclamations d'assurance en extrayant des données tabulaires à partir de documents faxés et la gestion des commandes clients dans la logistique, où les factures se présentent sous divers formats avec des mises en page de tables incohérentes, comme démontré par des entreprises telles qu'Opyn Market et iPAP.

Quelles capacités techniques IronOCR offre-t-il pour l'extraction de données de table ?

IronOCR offre des capacités telles que l'extraction de cellules et de coordonnées de table, l'OCR d'images scannées et de PDF multi-pages, et la compatibilité avec C#, VB.NET, .NET Standard, .NET Framework et .NET Core.

Quelles étapes sont impliquées dans le code pour extraire des données de table en utilisant IronOCR ?

Le processus implique l'initialisation du moteur IronTesseract, le chargement de l'image, l'exécution de l'OCR pour extraire les données textuelles, et l'itération à travers chaque table détectée et ses lignes pour afficher le contenu des cellules.

Quels packages sont nécessaires pour extraire des données de table avec IronOCR ?

Vous avez besoin du package NuGet IronOCR ainsi que du package IronOcr.Extensions.AdvancedScanning pour utiliser les modèles ML entraînés nécessaires pour la détection de tables et un OCR précis.

Comment IronOCR améliore-t-il l'efficacité dans les secteurs de la santé et de la logistique ?

IronOCR réduit le travail manuel et les erreurs humaines en automatisant l'extraction de données de table complexes à partir de documents scannés, offrant des gains d'efficacité et des économies substantielles pour des industries comme la santé et la logistique.

Puis-je voir une démonstration en direct des capacités d'IronOCR ?

Oui, vous pouvez réserver une démo en direct avec un des ingénieurs d'Iron Software pour voir IronOCR en action et en apprendre davantage sur ses capacités à extraire des données de table.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite