Passer au contenu du pied de page
UTILISATION D'IRONOCR

Traitement des factures avec OCR en C# (Tutoriel pour développeurs)

Le traitement des données de facturation consiste à recevoir, gérer et valider les factures des fournisseurs ou des vendeurs, et à s'assurer que les paiements sont effectués correctement et à temps. Cela implique des étapes conçues pour assurer l'exactitude, la conformité et l'efficacité dans le traitement des transactions commerciales afin d'éviter les factures papier. Le traitement automatisé des factures peut considérablement réduire les erreurs de saisie manuelle des données et améliorer l'efficacité. IronOCR est une puissante bibliothèque de reconnaissance optique de caractères (OCR) qui peut être utilisée pour extraire des données ou du texte de factures à partir d'un fichier numérique, en faisant un excellent outil pour automatiser le traitement OCR des factures dans les applications C#.

Comment traiter les données de facturation en utilisant un logiciel OCR comme IronOCR

  1. Créez un projet Visual Studio.
  2. Installez la bibliothèque C# IronOCR.
  3. Exemple d'image de facture d'entrée.
  4. Utilisez Tesseract et extrayez les données de l'image du reçu.
  5. Lire uniquement une région d'une image.

Reconnaissance Optique de Caractères (OCR)

La reconnaissance optique de caractères est une technologie qui permet de reconnaître et de convertir différents types de documents, de PDF ou d'images de texte en données éditables et consultables. La technologie OCR traite les images de texte et extrait les caractères, les rendant lisibles par machine. Les systèmes avancés de logiciels de facturation OCR aident dans les outils de gestion financière et l'automatisation des factures.

Points clés sur l'OCR

  • Fonctionnalité : Le logiciel OCR scanne les images ou le texte (par exemple, photos ou documents numérisés) et convertit les caractères en texte numérique qui peut être édité, recherché et stocké.
  • Applications : L'OCR est largement utilisé dans diverses industries pour des tâches comme la numérisation de documents imprimés, le traitement de factures, l'extraction de données de formulaires, la reconnaissance de plaque d'immatriculation (ANPR), les flux de travail des comptes fournisseurs et la numérisation de livres.
  • Technologie : L'OCR utilise des algorithmes pour identifier des motifs de lumière et d'obscurité pour interpréter les caractères. Les systèmes OCR modernes emploient également l'apprentissage automatique et l'intelligence artificielle pour améliorer la précision.
  • Avantages : L'OCR améliore la productivité en automatisant la saisie de données, en réduisant les erreurs et en permettant une recherche et une récupération des données plus faciles. Il prend également en charge l'archivage des documents et aide les entreprises à gérer des flux de travail sans papier.

La technologie OCR a considérablement évolué, devenant très précise et utile pour traiter les documents et l'extraction de données de factures à travers de nombreux formats de factures différents, afin de réduire la saisie manuelle de données, d'éliminer le traitement manuel des factures et d'améliorer la sécurité des données.

IronOCR

IronOCR est une puissante bibliothèque de reconnaissance optique de caractères (OCR) pour .NET (C#) qui permet aux développeurs d'extraire du texte d'images, de PDF et d'autres formats de documents, de développer des logiciels de facturation OCR et de mettre en œuvre des flux de travail des comptes fournisseurs. Il fournit une API facile à utiliser pour intégrer les capacités OCR dans le système de comptes fournisseurs ou le système comptable.

Fonctionnalités clés d'IronOCR

  • Extraction de texte : Il peut extraire du texte à partir de divers formats d'image (PNG, JPG, TIFF, etc.) et de PDF, y compris les PDF multipages pour les logiciels comptables.
  • Précision : IronOCR utilise des algorithmes avancés et des techniques d'apprentissage automatique pour fournir une haute précision dans la reconnaissance de texte, même pour les images bruyantes ou de mauvaise qualité pour les processus des comptes fournisseurs et les remises pour paiements anticipés.
  • Support linguistique : La bibliothèque prend en charge plusieurs langues, y compris l'anglais, l'espagnol, le français et d'autres, ce qui aide à reconnaître le texte dans différentes langues.
  • Facilité d'utilisation : IronOCR offre une API simple qui permet aux développeurs d'intégrer rapidement les fonctionnalités OCR dans leurs applications sans nécessiter de connaissances techniques approfondies sur les techniques OCR.
  • Reconnaissance de code-barres et code QR : En plus de la reconnaissance de texte standard, IronOCR peut également détecter et extraire les codes-barres et les codes QR à partir des images.
  • Support PDF : Il peut lire et extraire du texte à partir de PDF numérisés, ce qui est utile pour traiter les factures, les reçus et d'autres documents professionnels.
  • Personnalisation : La bibliothèque permet la personnalisation des paramètres OCR pour des besoins spécifiques, comme ajuster la précision ou gérer différentes résolutions d'image.

Prérequis

Avant de commencer, assurez-vous d'avoir les éléments suivants :

  • Visual Studio est installé sur votre machine.
  • Compréhension de base de la programmation C#.
  • Le package NuGet IronOCR est installé dans votre projet.

Étape 1 : Créer un projet Visual Studio

Ouvrez Visual Studio et cliquez sur Créer un nouveau projet.

Traitement des Factures OCR en C# (Tutoriel Développeur) : Figure 1 - Nouveau Projet

Sélectionnez Console App dans les options.

Traitement des Factures OCR en C# (Tutoriel Développeur) : Figure 2 - Console App

Fournissez le nom du projet et le chemin.

Traitement des factures OCR en C# (Tutoriel pour développeur) : Figure 3 - Configuration du projet

Sélectionnez le type de Version .NET.

Traitement des Factures OCR en C# (Tutoriel Développeur) : Figure 4 - Framework Cible

Étape 2 : Installer la bibliothèque C# IronOCR

Dans votre projet dans Visual Studio, allez dans Outils > Gestionnaire de Paquets NuGet > Gérer les Paquets NuGet pour la Solution. Cliquez sur l'onglet Parcourir et recherchez IronOCR. Sélectionnez IronOCR et cliquez sur Installer.

Traitement des Factures OCR en C# (Tutoriel Développeur) : Figure 5 - IronOCR

Une autre option est d'utiliser la console et la commande ci-dessous.

dotnet add package IronOcr --version 2024.12.2

Étape 3 : Exemple d'image de facture d'entrée

Exemple d'image de facture numérique avec le numéro de la facture.

Traitement des Factures OCR en C# (Tutoriel Développeur) : Figure 6 - Entrée Exemple

Étape 4 : Utiliser Tesseract et extraire les données de l'image du reçu

Utilisez maintenant le code ci-dessous pour extraire des données d'une facture pour le traitement OCR des factures.

using IronOcr;

// Set the license key
License.LicenseKey = "Your License";
string filePath = "sample1.jpg"; // Path to the invoice image

// Create an instance of IronTesseract
var ocr = new IronTesseract();

// Load the image for OCR
using (var ocrInput = new OcrInput())
{
    ocrInput.LoadImage(filePath);

    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise();

    // Perform OCR to extract text
    var ocrResult = ocr.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);

    // Next steps would involve processing the extracted text
}
using IronOcr;

// Set the license key
License.LicenseKey = "Your License";
string filePath = "sample1.jpg"; // Path to the invoice image

// Create an instance of IronTesseract
var ocr = new IronTesseract();

// Load the image for OCR
using (var ocrInput = new OcrInput())
{
    ocrInput.LoadImage(filePath);

    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise();

    // Perform OCR to extract text
    var ocrResult = ocr.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);

    // Next steps would involve processing the extracted text
}
Imports IronOcr

' Set the license key
License.LicenseKey = "Your License"
Dim filePath As String = "sample1.jpg" ' Path to the invoice image

' Create an instance of IronTesseract
Dim ocr = New IronTesseract()

' Load the image for OCR
Using ocrInput As New OcrInput()
	ocrInput.LoadImage(filePath)

	' Optionally apply filters if needed 
	ocrInput.Deskew()
	' ocrInput.DeNoise();

	' Perform OCR to extract text
	Dim ocrResult = ocr.Read(ocrInput)

	' Output the extracted text
	Console.WriteLine("Extracted Text:")
	Console.WriteLine(ocrResult.Text)

	' Next steps would involve processing the extracted text
End Using
$vbLabelText   $csharpLabel

Explication du code

Le code fourni démontre comment utiliser la bibliothèque IronOCR en C# pour extraire du texte d'une image (par exemple, une facture) en utilisant l'OCR (Reconnaissance Optique de Caractères). Voici une explication de chaque partie du code :

  1. Configuration de Clé de Licence :

    • Le code commence par installer la clé de licence pour IronOCR. Cette clé est requise pour utiliser la pleine fonctionnalité de la bibliothèque. Si vous avez une licence valide, remplacez "Your License" par votre clé de licence réelle.
  2. Spécification du Fichier d'Entrée :

    • La variable filePath contient l'emplacement de l'image qui contient la facture (dans ce cas, "sample1.jpg"). C'est le fichier qui sera traité pour l'extraction de texte.
  3. Création d'une Instance OCR :

    • Une instance de IronTesseract est créée. IronTesseract est la classe responsable d'effectuer l'opération OCR sur les données d'entrée.
  4. Chargement de l'Image :

    • Le code crée un objet OcrInput, qui charge l'image spécifiée par filePath en utilisant la méthode LoadImage.
  5. Application de Filtres sur l'Image :

    • Le code applique optionnellement des filtres comme Deskew() pour corriger les images inclinées et améliorer la précision de l'OCR.
  6. Exécution de l'OCR :

    • La méthode ocr.Read() extrait le texte de l'image chargée, renvoyant un OcrResult contenant le texte extrait.
  7. Affichage du Texte Extrait :
    • Le texte extrait est imprimé sur la console. Ce texte est ce que IronOCR a reconnu de l'image et peut être utilisé pour un traitement ultérieur.

Sortie

Traitement des Factures OCR en C# (Tutoriel Développeur) : Figure 7 - Sortie OCR avec Numéro de Facture

Étape 5 : Lire uniquement une région d'une image

Pour améliorer l'efficacité, seule une partie de l'image peut être traitée pour l'extraction.

using IronOcr;
using IronSoftware.Drawing;

// Set the license key
License.LicenseKey = "Your Key";
string filePath = "sample1.jpg"; // Path to the invoice image

// Create an instance of IronTesseract
var ocr = new IronTesseract();

// Load the image for OCR
using (var ocrInput = new OcrInput())
{
    // Define the region of interest
    var ContentArea = new Rectangle(x: 0, y: 0, width: 1000, height: 250);
    ocrInput.LoadImage(filePath, ContentArea);

    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise();

    // Perform OCR to extract text
    var ocrResult = ocr.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;

// Set the license key
License.LicenseKey = "Your Key";
string filePath = "sample1.jpg"; // Path to the invoice image

// Create an instance of IronTesseract
var ocr = new IronTesseract();

// Load the image for OCR
using (var ocrInput = new OcrInput())
{
    // Define the region of interest
    var ContentArea = new Rectangle(x: 0, y: 0, width: 1000, height: 250);
    ocrInput.LoadImage(filePath, ContentArea);

    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise();

    // Perform OCR to extract text
    var ocrResult = ocr.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing

' Set the license key
License.LicenseKey = "Your Key"
Dim filePath As String = "sample1.jpg" ' Path to the invoice image

' Create an instance of IronTesseract
Dim ocr = New IronTesseract()

' Load the image for OCR
Using ocrInput As New OcrInput()
	' Define the region of interest
	Dim ContentArea = New Rectangle(x:= 0, y:= 0, width:= 1000, height:= 250)
	ocrInput.LoadImage(filePath, ContentArea)

	' Optionally apply filters if needed 
	ocrInput.Deskew()
	' ocrInput.DeNoise();

	' Perform OCR to extract text
	Dim ocrResult = ocr.Read(ocrInput)

	' Output the extracted text
	Console.WriteLine("Extracted Text:")
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Explication du code

Ce code extrait le texte d'une région spécifique d'une image en utilisant IronOCR, avec des options pour les filtres d'image qui améliorent la précision. Voici un aperçu de chaque partie :

  1. Configuration de la Licence :

    • Configure la clé de licence pour IronOCR, qui est nécessaire pour utiliser les fonctionnalités OCR de la bibliothèque. Remplacez "Your Key" par votre clé de licence valide.
  2. Définition du Chemin du Fichier Image :

    • Spécifie le chemin du fichier vers l'image de la facture à traiter, qui contient le contenu pour l'extraction de texte.
  3. Création d'une Instance OCR :

    • Une instance de IronTesseract est créée pour réaliser les opérations OCR.
  4. Définition de la Zone à Traiter :

    • Spécifie une zone rectangulaire au sein de l'image (commençant au coin supérieur gauche) pour focaliser le processus OCR sur une section pertinente, améliorant l'efficacité.
  5. Chargement de l'Image :

    • Charge la zone de contenu spécifiée de l'image depuis le fichier. Cela confine le traitement OCR à une partie spécifique de l'image.
  6. Application de Filtres :

    • Applique des filtres comme Deskew() pour améliorer l'alignement des images et potentiellement DeNoise() pour nettoyer l'image, améliorant ainsi la précision de l'OCR.
  7. Extraction du Texte :

    • Lit le texte de la région définie et le stocke dans un OcrResult.
  8. Sortie du Texte Extrait :
    • Sortie le texte traité par OCR vers la console pour une utilisation ultérieure.

Sortie

Traitement des Factures OCR en C# (Tutoriel Développeur) : Figure 8 - Sortie Extraite

Licence (Essai disponible)

IronOCR nécessite une clé pour extraire des données des factures. Obtenez votre clé de test développeur depuis la page de licence.

using IronOcr; 
License.LicenseKey = "Your Key";
using IronOcr; 
License.LicenseKey = "Your Key";
Imports IronOcr
License.LicenseKey = "Your Key"
$vbLabelText   $csharpLabel

Conclusion

Cet article a fourni un exemple de base de comment commencer avec IronOCR pour le traitement de factures. Vous pouvez personnaliser et étendre ce code pour répondre à vos exigences spécifiques.

IronOCR offre une solution efficace et facile à intégrer pour extraire du texte à partir d'images et de PDFs, ce qui le rend idéal pour le traitement des factures. En utilisant IronOCR en combinaison avec la manipulation de chaînes C# ou des expressions régulières, vous pouvez rapidement traiter et extraire des données importantes des factures.

Ceci est un exemple de base de traitement de factures, et avec des configurations plus avancées (comme la reconnaissance des langues, le traitement de PDF multi-pages, etc.), vous pouvez affiner les résultats OCR pour améliorer la précision pour votre cas d'utilisation spécifique.

L'API d'IronOCR est flexible, et elle peut être utilisée pour une large variété de tâches OCR au-delà du traitement de factures, y compris la numérisation de reçus, la conversion de documents et l'automatisation de la saisie de données.

Questions Fréquemment Posées

Comment puis-je automatiser le traitement des données de factures en C#?

Vous pouvez automatiser le traitement des données de factures en C# en utilisant IronOCR pour extraire le texte et les données des fichiers de factures numériques. Cela réduit les erreurs de saisie manuelle de données et améliore l'efficacité dans la gestion des factures.

Quelles étapes sont impliquées dans la mise en place de l'OCR pour le traitement des factures?

Pour mettre en place l'OCR pour le traitement des factures, commencez par créer un projet Visual Studio, installez la bibliothèque IronOCR, et utilisez des images de factures d'exemple. Vous pouvez ensuite utiliser les fonctionnalités d'IronOCR pour extraire et traiter les données des factures.

Comment extraire des données de régions spécifiques d'une facture en utilisant l'OCR?

IronOCR vous permet de définir des régions spécifiques d'une image en définissant une zone rectangulaire pour concentrer le processus OCR. Cette fonctionnalité améliore l'efficacité et la précision en ciblant uniquement les parties nécessaires d'une facture.

Quel est le rôle de Tesseract dans IronOCR?

Tesseract fait partie d'IronOCR et joue un rôle crucial dans l'extraction de texte à partir d'images. Il aide à convertir les images de texte en données lisibles par machine, ce qui est essentiel pour automatiser le traitement des factures dans les applications C#.

Les logiciels OCR peuvent-ils reconnaître du texte dans plusieurs langues?

Oui, IronOCR prend en charge plusieurs langues, ce qui le rend capable de reconnaître et de traiter du texte dans diverses langues, telles que l'anglais, l'espagnol et le français, augmentant sa polyvalence dans la gestion des factures mondiales.

Quels sont les avantages d'utiliser IronOCR pour le traitement des factures?

Utiliser IronOCR pour le traitement des factures offre des avantages comme une haute précision dans l'extraction de texte, la prise en charge de plusieurs langues, la reconnaissance de codes-barres et des capacités de traitement de PDF, qui simplifient les flux de travail des comptes fournisseurs.

Comment puis-je personnaliser les paramètres OCR pour des besoins spécifiques de traitement des factures?

IronOCR fournit une API simple qui permet aux développeurs de personnaliser les paramètres OCR. Cette flexibilité permet des solutions sur mesure pour des besoins spécifiques de traitement des factures, comme la gestion de différents formats ou langues de factures.

Quelle est l'importance de l'OCR dans la gestion numérique des factures?

L'OCR est critique dans la gestion numérique des factures car il automatise l'extraction des données des factures, réduisant la charge de travail manuelle, minimisant les erreurs et assurant un traitement efficace et précis des transactions financières.

Existe-t-il une version d'essai disponible pour tester les capacités d'IronOCR?

Oui, IronOCR offre une clé d'essai pour les développeurs que vous pouvez obtenir sur leur page de licences, vous permettant de tester la pleine fonctionnalité du logiciel avant de vous engager à un achat.

Comment IronOCR améliore-t-il la conversion de documents et l'automatisation de la saisie de données?

IronOCR améliore la conversion de documents et l'automatisation de la saisie de données en fournissant une extraction de texte de haute précision à partir de divers formats, permettant une intégration fluide dans les applications C# pour le traitement automatisé des données.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite