Passer au contenu du pied de page
UTILISATION D'IRONOCR

API OCR pour les factures (Tutoriel pour développeurs)

L'API OCR de factures utilise l'apprentissage automatique et la vision par ordinateur pour transformer les données de facturation en un format adapté au traitement automatisé. Cette technologie permet de résoudre les problèmes liés à la saisie manuelle de données, tels que les retards, les coûts et les erreurs, en extrayant avec précision des informations comme les coordonnées du fournisseur, les numéros de facture et les prix à partir des factures numériques et numérisées.

Cet article utilisera une API OCR de pointe pour les factures, nommée IronOCR .

1. IronOCR

IronOCR, développé par Iron Software, est une bibliothèque OCR offrant une gamme d'outils pour les développeurs. Il utilise l'apprentissage automatique et la vision par ordinateur pour extraire le texte de documents numérisés, d'images et de fichiers PDF, permettant ainsi un traitement automatisé. Ses API s'intègrent à divers langages et plateformes, réduisant ainsi les erreurs de saisie manuelle de données et améliorant l'efficacité. Les données extraites peuvent être analysées et intégrées aux systèmes existants, facilitant ainsi la prise de décision et la productivité. Des fonctionnalités telles que le prétraitement d'images , la reconnaissance de codes-barres et l'analyse de fichiers augmentent sa polyvalence. IronOCR permet aux développeurs d'intégrer la reconnaissance de texte dans leurs applications.

2. Prérequis

Avant de pouvoir commencer à utiliser IronOCR, quelques prérequis doivent être remplis. Ces prérequis incluent :

  1. Assurez-vous de disposer d'un environnement de développement approprié configuré sur votre ordinateur. Cela implique généralement d'avoir un environnement de développement intégré (IDE) tel que Visual Studio installé.
  2. Il est important d'avoir une compréhension de base du langage de programmation C#. Cela vous permettra de comprendre et de modifier efficacement les exemples de code fournis dans l'article.
  3. Vous devrez avoir la bibliothèque IronOCR installée dans votre projet. Cela peut être réalisé en utilisant le gestionnaire de packages NuGet dans Visual Studio ou via l'interface de ligne de commande.

En vous assurant que ces conditions préalables sont remplies, vous serez prêt à vous lancer dans le processus de travail avec IronOCR.

3. Création d'un nouveau projet Visual Studio

Pour commencer à utiliser IronOCR, la première étape consiste à créer un nouveau projet Visual Studio.

Ouvrez Visual Studio, allez dans Fichiers, puis survolez Nouveau et cliquez sur Projet.

API OCR pour factures (Tutoriel développeur) : Figure 1 - Nouveau projet Nouveau Projet

Dans la nouvelle fenêtre, sélectionnez Application console et cliquez sur Suivant.

API OCR pour factures (Tutoriel développeur) : Figure 2 - Application console Application Console

Une nouvelle fenêtre apparaîtra ; saisissez le nom et l'emplacement de votre nouveau projet, puis cliquez sur Suivant.

API OCR pour factures (Tutoriel développeur) : Figure 3 - Configuration du projet Configuration du Projet

Enfin, indiquez le cadre cible et cliquez sur Créer.

API OCR de factures (Tutoriel développeur) : Figure 4 - Cadre cible Framework Cible

Votre nouveau projet Visual Studio est maintenant créé. Installons IronOCR.

4. Installation d'IronOCR

Il existe plusieurs méthodes pour télécharger et installer la bibliothèque IronOCR. Voici donc les deux approches les plus simples.

  1. Utilisation du gestionnaire de packages NuGet de Visual Studio
  2. Utilisation de la ligne de commande de Visual Studio

4.1. Utilisation du gestionnaire de packages NuGet de Visual Studio

IronOCR peut être inclus dans un projet C# en utilisant le gestionnaire de packages NuGet de Visual Studio.

Accédez à l'interface utilisateur graphique du Gestionnaire de packages NuGet en sélectionnant Outils > Gestionnaire de packages NuGet > Gérer les packages NuGet pour la solution

API OCR pour factures (Tutoriel pour développeurs) : Figure 5 - Gestionnaire de packages NuGet Gestionnaire de paquets NuGet

Une nouvelle fenêtre s'ouvrira ensuite. Recherchez IronOCR et installez le package dans le projet.

API OCR pour factures (Tutoriel développeur) : Figure 6 - Sélectionner le package IronOCR dans l'interface utilisateur du gestionnaire de packages NuGet Sélectionnez le package IronOCR dans l'interface utilisateur du gestionnaire de packages NuGet.

Des modules linguistiques supplémentaires pour IronOCR peuvent également être installés en utilisant la même méthode décrite ci-dessus.

4.2. Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, accédez à Outils > Gestionnaire de packages NuGet > Console du gestionnaire de packages
  2. Saisissez la ligne suivante dans l'onglet Console du Gestionnaire de packages pour installer IronOCR :

    Install-Package IronOcr

API OCR pour factures (Tutoriel développeur) : Figure 7 - Console du gestionnaire de packages Console du Gestionnaire de Packages

Le paquet sera maintenant téléchargé/installé dans le projet actuel et prêt à être utilisé.

5. Extraire les données des factures à l'aide d'IronOCR

Avec IronOCR, vous pouvez facilement extraire des données de factures en quelques lignes de code seulement et utiliser ces données extraites pour des processus ultérieurs tels que la saisie de données. Cela remplacera la saisie manuelle des données et bien d'autres choses encore.

Voici un exemple de facture à partir de laquelle extraire du texte.

API OCR pour factures (Tutoriel développeur) : Figure 8 - Exemple de facture La facture d'exemple

À présent, écrivons le code permettant d'extraire toutes les données de cette facture.

using IronOcr;
using System;

// Initialize a new instance of the IronTesseract class
var ocr = new IronTesseract();

// Use the OcrInput object to load the image file
using (var input = new OcrInput(@"r2.png"))
{
    // Read the image using the Read method, which performs OCR
    var result = ocr.Read(input);

    // Output the extracted text to the console
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;

// Initialize a new instance of the IronTesseract class
var ocr = new IronTesseract();

// Use the OcrInput object to load the image file
using (var input = new OcrInput(@"r2.png"))
{
    // Read the image using the Read method, which performs OCR
    var result = ocr.Read(input);

    // Output the extracted text to the console
    Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System

' Initialize a new instance of the IronTesseract class
Private ocr = New IronTesseract()

' Use the OcrInput object to load the image file
Using input = New OcrInput("r2.png")
	' Read the image using the Read method, which performs OCR
	Dim result = ocr.Read(input)

	' Output the extracted text to the console
	Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Le code ci-dessus reçoit en entrée une image, puis extrait des données de cette image à l'aide d'une méthode Read de la classe IronTesseract .

API OCR de factures (Tutoriel développeur) : Figure 9 - Analyseur de factures Analyseur de factures

5.1. Traitement des factures pour extraire des données spécifiques des factures

Vous pouvez également extraire des données spécifiques des factures, comme les numéros de facture client. Ci-dessous figure le code permettant d'extraire le numéro de facture client à partir de la facture.

using IronOcr;
using System;
using System.Text.RegularExpressions;

// Initialize a new instance of the IronTesseract class
var ocr = new IronTesseract();

// Use the OcrInput object to load the image file
using (var input = new OcrInput(@"r2.png"))
{
    // Perform OCR on the image
    var result = ocr.Read(input);

    // Define a regular expression pattern for the invoice number
    var linePattern = @"INV\/\d{4}\/\d{5}";

    // Match the pattern in the extracted text
    var lineMatch = Regex.Match(result.Text, linePattern);

    // Check if the pattern matches any part of the text
    if (lineMatch.Success)
    {
        // If a match is found, print the invoice number
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }
}
using IronOcr;
using System;
using System.Text.RegularExpressions;

// Initialize a new instance of the IronTesseract class
var ocr = new IronTesseract();

// Use the OcrInput object to load the image file
using (var input = new OcrInput(@"r2.png"))
{
    // Perform OCR on the image
    var result = ocr.Read(input);

    // Define a regular expression pattern for the invoice number
    var linePattern = @"INV\/\d{4}\/\d{5}";

    // Match the pattern in the extracted text
    var lineMatch = Regex.Match(result.Text, linePattern);

    // Check if the pattern matches any part of the text
    if (lineMatch.Success)
    {
        // If a match is found, print the invoice number
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }
}
Imports IronOcr
Imports System
Imports System.Text.RegularExpressions

' Initialize a new instance of the IronTesseract class
Private ocr = New IronTesseract()

' Use the OcrInput object to load the image file
Using input = New OcrInput("r2.png")
	' Perform OCR on the image
	Dim result = ocr.Read(input)

	' Define a regular expression pattern for the invoice number
	Dim linePattern = "INV\/\d{4}\/\d{5}"

	' Match the pattern in the extracted text
	Dim lineMatch = Regex.Match(result.Text, linePattern)

	' Check if the pattern matches any part of the text
	If lineMatch.Success Then
		' If a match is found, print the invoice number
		Dim lineValue = lineMatch.Value
		Console.WriteLine("Customer Invoice number: " & lineValue)
	End If
End Using
$vbLabelText   $csharpLabel

API OCR de factures (Tutoriel développeur) : Figure 10 - Numérisation de factures Numérisation des factures

6. Conclusion

L'API OCR pour factures d'IronOCR révolutionne l'extraction de données à partir de factures grâce à l'apprentissage automatique et à la vision par ordinateur. Cette technologie convertit le texte et les chiffres des factures en un format lisible par machine, simplifiant ainsi l'extraction des données pour l'analyse, l'intégration et l'amélioration des processus. Elle offre une solution robuste pour automatiser le traitement des factures, améliorer la précision et optimiser les flux de travail tels que la comptabilité fournisseurs. Cette technologie permet également la saisie automatisée de données à partir de factures numérisées.

IronOCR offre une haute précision en utilisant les meilleurs résultats de Tesseract, sans aucun réglage supplémentaire. Il prend en charge les fichiers TIFF multipages , les fichiers PDF et tous les formats d'image courants. Il est également possible de lire les valeurs des codes-barres à partir d'images .

Veuillez consulter la page d'accueil du site web pour plus d'informations sur IronOCR. Pour plus de tutoriels sur la reconnaissance optique de caractères (OCR) des factures, consultez le tutoriel détaillé suivant sur l'OCR des factures . Pour savoir comment utiliser la vision par ordinateur pour trouver du texte tel que des champs de facture, visitez ce guide sur la vision par ordinateur.

Questions Fréquemment Posées

Comment puis-je automatiser le traitement des données de factures à l'aide de l'OCR?

Vous pouvez utiliser IronOCR pour automatiser le traitement des données de factures en utilisant ses algorithmes d'apprentissage automatique. IronOCR extrait des détails tels que les informations du fournisseur, les numéros de facture et les prix à partir de factures numériques et numérisées, réduisant ainsi les erreurs de saisie manuelle et améliorant l'efficacité.

Quelles sont les étapes impliquées dans la mise en place d'une API OCR de factures ?

Pour mettre en place une API OCR de factures à l'aide d'IronOCR, commencez par télécharger et installer la bibliothèque via le gestionnaire de packages NuGet de Visual Studio. Ensuite, créez un nouveau projet C#, intégrez IronOCR, et utilisez ses méthodes pour charger et lire les fichiers image pour l'extraction de texte.

IronOCR peut-il extraire des données spécifiques comme les numéros de facture?

Oui, IronOCR peut extraire des données spécifiques comme les numéros de facture. Il utilise des expressions régulières pour faire correspondre les motifs dans le texte extrait, vous permettant de récupérer des informations spécifiques des factures.

Quelles sont les caractéristiques d'IronOCR qui bénéficient au traitement des factures?

IronOCR comprend des caractéristiques comme le prétraitement d'images, la reconnaissance de codes-barres et l'analyse de fichiers. Celles-ci améliorent sa capacité à extraire et traiter précisément le texte provenant de divers formats de factures, améliorant la capture de données et l'efficacité du flux de travail.

Comment le prétraitement des images peut-il améliorer les résultats de l'OCR?

Le prétraitement des images dans IronOCR aide à améliorer les résultats de l'OCR en optimisant la qualité de l'image avant l'extraction du texte. Cela comprend des opérations comme l'ajustement du contraste et la réduction du bruit, ce qui peut conduire à une extraction de données plus précise depuis les factures.

Est-il possible d'utiliser IronOCR pour les factures numériques et numérisées?

Oui, IronOCR est capable de traiter à la fois les factures numériques et numérisées. Il utilise des techniques avancées d'apprentissage automatique et de vision par ordinateur pour extraire précisément le texte de divers formats et qualités d'image.

Comment IronOCR gère-t-il les formats de pages multiples et les types de fichiers?

IronOCR prend en charge plusieurs formats de pages ainsi que les types de fichiers d'image et PDF populaires. Il peut extraire efficacement du texte de documents complexes, ce qui le rend polyvalent pour diverses applications de traitement de factures.

Où les développeurs peuvent-ils trouver des tutoriels pour utiliser IronOCR?

Les développeurs peuvent trouver des tutoriels et des ressources supplémentaires sur le site Web d'IronOCR. Le site offre une gamme de matériels d'apprentissage, y compris des guides pratiques et des articles de blog pour appliquer IronOCR dans différents scénarios.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite