UTILISATION DE L'IRONOCR

API OCR pour les factures (Tutoriel du développeur)

Kannaopat Udonpant
Kannapat Udonpant
juillet 22, 2023
Partager:

L'API OCR des factures utilise l'apprentissage automatique et la vision par ordinateur pour transformer les données des factures dans un format adapté au traitement automatisé. Cette technologie résout les problèmes liés à la saisie manuelle des données, tels que les retards, les coûts et les erreurs, en extrayant avec précision des détails tels que les informations sur les fournisseurs, les numéros de factures et les prix à partir de factures numériques ou scannées.

Cet article utilisera une API OCR de facture haut de gamme nommée IronOCR.

1. IronOCR

IronOCR, développé par Iron Software, est une bibliothèque OCR offrant une gamme d'outils pour les développeurs. Il utilise l'apprentissage automatique et la vision par ordinateur pour extraire le texte des documents numérisés, des images et des PDF, ce qui permet un traitement automatisé. Ses API s'intègrent dans différentes langues et plateformes, réduisant les erreurs de saisie manuelle des données et améliorant l'efficacité. Les données extraites peuvent être analysées et intégrées dans les systèmes existants, ce qui facilite la prise de décision et la productivité. Des fonctionnalités telles que la prétraitement d'image, la reconnaissance des codes-barres, et l'analyse de fichiers augmentent sa polyvalence. IronOCR permet aux développeurs d'intégrer la reconnaissance de texte dans leurs applications.

2. Conditions préalables

Avant de commencer à travailler avec IronOCR, quelques conditions préalables doivent être remplies. Ces conditions préalables sont les suivantes

  1. Assurez-vous que vous disposez d'un environnement de développement adéquat sur votre ordinateur. Cela implique généralement d'avoir un environnement de développement intégré (IDE) tel que Visual Studio installé.

  2. Il est important d'avoir une compréhension de base du langage de programmation C#. Cela vous permettra de comprendre et de modifier efficacement les exemples de code fournis dans l'article.

  3. La bibliothèque IronOCR doit être installée dans votre projet. Pour ce faire, vous pouvez utiliser le gestionnaire de paquets NuGet dans Visual Studio ou l'interface de ligne de commande.

    En vous assurant que ces conditions préalables sont remplies, vous serez prêt à vous plonger dans le processus de travail avec IronOCR.

3. Création d'un nouveau projet Visual Studio

Pour commencer à utiliser IronOCR, la première étape consiste à créer un nouveau projet Visual Studio.

Ouvrez Visual Studio et allez dans Fichiers, puis survolez Nouveau, et cliquez sur Projet.

API de reconnaissance de texte pour factures (Tutoriel pour développeurs): Figure 1 - Nouveau projet

Nouveau Projet

Dans la nouvelle fenêtre, sélectionnez Application Console et cliquez sur Suivant.

Invoice OCR API (Tutoriel pour développeurs) : Figure 2 - Application Console

Application Console

Une nouvelle fenêtre apparaît, écrivez le nom de votre nouveau projet, l'emplacement et cliquez sur Suivant.

API OCR de Facture (Tutoriel pour Développeurs) : Figure 3 - Configuration du Projet

Configuration du projet

Enfin, indiquez le cadre cible et cliquez sur Créer.

API OCR de Facture (Tutoriel Développeur) : Figure 4 - Cadre Cible

Framework cible

Votre nouveau projet Visual Studio est maintenant créé. Installons IronOCR.

4. Installation de l'IronOCR

Il existe plusieurs méthodes pour télécharger et installer la bibliothèque IronOCR. Mais voici les deux approches les plus simples.

  1. Utilisation du gestionnaire de paquets NuGet de Visual Studio

  2. Utilisation de la ligne de commande de Visual Studio

4.1. Utilisation du gestionnaire de paquets NuGet de Visual Studio

IronOCR peut être inclus dans un projet C# en utilisant le gestionnaire de paquets NuGet de Visual Studio.

Accédez à l'interface graphique du gestionnaire de packages NuGet en sélectionnant Outils > Gestionnaire de packages NuGet > Gérer les packages NuGet pour la solution

OCR API de facturation (Tutoriel pour développeurs) : Figure 5 - Gestionnaire de packages NuGet

Gestionnaire de packages NuGet

Une nouvelle fenêtre apparaît alors. Recherchez IronOCR et installez le paquet dans le projet.

API OCR de factures (Tutoriel pour les développeurs): Figure 6 - Sélectionnez le package IronOCR dans l'interface utilisateur de NuGet Package Manager

Sélectionnez le package IronOCR dans l'interface de gestionnaire de paquets NuGet

Des packs de langues supplémentaires pour IronOCR peuvent également être installés en utilisant la même méthode que celle décrite ci-dessus.

4.2. Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, allez à Outils > Gestionnaire de packages NuGet > Console du gestionnaire de packages

  2. Saisissez la ligne suivante dans l'onglet Console du gestionnaire de paquets :
    :ProductInstall

API de reconnaissance de factures OCR (Tutoriel pour développeurs) : Figure 7 - Console du Gestionnaire de Paquets

Console du gestionnaire de packages

Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.

5. Extraire des données de factures à l'aide d'IronOCR

En utilisant IronOCR, vous pouvez facilement extraire des données des factures avec seulement quelques lignes de code et utiliser cette extraction de données pour d'autres processus tels que la saisie de données. Cela remplacera la saisie manuelle des données et bien d'autres choses encore.

Voici un exemple de facture dont il faut extraire le texte.

API de reconnaissance de factures (Tutoriel pour développeurs) : Figure 8 - L'exemple de facture

La facture d'exemple

Maintenant, écrivons le code pour extraire toutes les données de cette facture.

using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System

Private ocr = New IronTesseract()
Using input = New OcrInput("r2.png")
	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Le code ci-dessus obtient une entrée sous forme d'image, puis extrait des données de cette image en utilisant une méthode Read de la classe IronTesseract.

API OCR de facture (Tutoriel développeur) : Figure 9 - Analyseur de factures

Analyseur de Factures

5.1. Traitement des factures pour extraire des données spécifiques des factures

Vous pouvez également extraire des données spécifiques des factures, comme les numéros de factures des clients. Le code ci-dessous permet d'extraire le numéro de la facture du client.

using IronOcr;
using System;
using System.Text.RegularExpressions;

var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = orc.Read(input);
    var linePattern = @"INV\/\d{4}\/\d{5}";
    var lineMatch = Regex.Match(result.Text, linePattern);
    if (lineMatch.Success)
    {
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }

}
using IronOcr;
using System;
using System.Text.RegularExpressions;

var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = orc.Read(input);
    var linePattern = @"INV\/\d{4}\/\d{5}";
    var lineMatch = Regex.Match(result.Text, linePattern);
    if (lineMatch.Success)
    {
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }

}
Imports IronOcr
Imports System
Imports System.Text.RegularExpressions

Private orc = New IronTesseract()
Using input = New OcrInput("r2.png")
	Dim result = orc.Read(input)
	Dim linePattern = "INV\/\d{4}\/\d{5}"
	Dim lineMatch = Regex.Match(result.Text, linePattern)
	If lineMatch.Success Then
		Dim lineValue = lineMatch.Value
		Console.WriteLine("Customer Invoice number: " & lineValue)
	End If

End Using
$vbLabelText   $csharpLabel

API OCR de factures (Tutoriel pour développeurs) : Figure 10 - Numérisation de facture

Numérisation de Factures

6. Conclusion

L'API d'OCR de factures d'IronOCR révolutionne l'extraction de données à partir de factures en utilisant l'apprentissage automatique et la vision par ordinateur. Cette technologie convertit le texte et les numéros des factures dans un format lisible par une machine, ce qui simplifie l'extraction des données à des fins d'analyse, d'intégration et d'amélioration des processus. Il offre une solution robuste pour automatiser le traitement des factures, améliorer la précision et optimiser les flux de travail comme la comptabilité fournisseurs. La saisie automatisée de données à partir de factures scannées est également possible grâce à cette technologie.

IronOCR offre une grande précision en utilisant les meilleurs résultats de Tesseract, sans aucun réglage supplémentaire. Il prend en charge les TIFF multi-pages, les fichiers PDF et tous les formats d'image populaires. Il est également possible de lire les valeurs de codes-barres à partir d'images.

Veuillez visiter le site d'accueil pour plus d'informations sur IronOCR. Pour plus de tutoriels sur la reconnaissance optique de caractères (OCR) des factures, consultez ce tutoriel détaillé sur l'OCR des factures. Pour savoir comment utiliser la vision par ordinateur pour trouver du texte tel que des champs de factures, visitez ce guide de vision par ordinateur.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT
Meilleur OCR pour le traitement des factures (liste mise à jour)
SUIVANT >
Comment lire le texte d'une image dans Blazor