UTILISATION DE L'IRONOCR

API OCR pour les factures (Tutoriel du développeur)

Publié juillet 22, 2023
Partager:

L'API OCR des factures utilise l'apprentissage automatique et la vision par ordinateur pour transformer les données des factures dans un format adapté au traitement automatisé. Cette technologie résout les problèmes liés à la saisie manuelle des données, tels que les retards, les coûts et les erreurs, en extrayant avec précision des détails tels que les informations sur les fournisseurs, les numéros de factures et les prix à partir de factures numériques ou scannées.

Cet article utilisera une API d'OCR de factures haut de gamme nommée IronOCR.

1. IronOCR

IronOCR, développé par Iron Software, est une bibliothèque OCR offrant une gamme d'outils pour les développeurs. Il utilise l'apprentissage automatique et la vision par ordinateur pour extraire le texte des documents numérisés, des images et des PDF, ce qui permet un traitement automatisé. Ses API s'intègrent dans différentes langues et plateformes, réduisant les erreurs de saisie manuelle des données et améliorant l'efficacité. Les données extraites peuvent être analysées et intégrées dans les systèmes existants, ce qui facilite la prise de décision et la productivité. Caractéristiques le prétraitement des images, reconnaissance des codes-barreset l'analyse de fichiers augmentent sa polyvalence. IronOCR permet aux développeurs d'intégrer la reconnaissance de texte dans leurs applications.

2. Conditions préalables

Avant de commencer à travailler avec IronOCR, quelques conditions préalables doivent être remplies. Ces conditions préalables sont les suivantes

  1. Assurez-vous que vous disposez d'un environnement de développement adéquat sur votre ordinateur. Cela implique généralement de disposer d'un environnement de développement intégré (L'IDE) comme Visual Studio.
  2. Il est important d'avoir une compréhension de base du langage de programmation C#. Cela vous permettra de comprendre et de modifier efficacement les exemples de code fournis dans l'article.
  3. La bibliothèque IronOCR doit être installée dans votre projet. Pour ce faire, vous pouvez utiliser le gestionnaire de paquets NuGet dans Visual Studio ou l'interface de ligne de commande.

    En vous assurant que ces conditions préalables sont remplies, vous serez prêt à vous plonger dans le processus de travail avec IronOCR.

3. Création d'un nouveau projet Visual Studio

Pour commencer à utiliser IronOCR, la première étape consiste à créer un nouveau projet Visual Studio.

Ouvrez Visual Studio et allez dans Fichiers, puis survolez Nouveau, et cliquez sur Projet.

Facture OCR API (Tutoriel du développeur) : Figure 1 - Nouveau projet **Nouveau projet

Dans la nouvelle fenêtre, sélectionnez Application Console et cliquez sur Suivant.

Facture OCR API (Tutoriel du développeur) : Figure 2 - Application console Console Application

Une nouvelle fenêtre apparaît, écrivez le nom de votre nouveau projet, l'emplacement et cliquez sur Suivant.

Facture OCR API (tutoriel du développeur) : Figure 3 - Configuration du projet Configuration du projet

Enfin, indiquez le cadre cible et cliquez sur Créer.

Facture OCR API (tutoriel du développeur) : Figure 4 - Cadre cible Cadre cible

Votre nouveau projet Visual Studio est maintenant créé. Installons IronOCR.

4. Installation de l'IronOCR

Il existe plusieurs méthodes pour télécharger et installer la bibliothèque IronOCR. Mais voici les deux approches les plus simples.

  1. Utilisation du gestionnaire de paquets NuGet de Visual Studio
  2. Utilisation de la ligne de commande de Visual Studio

4.1. Utilisation du gestionnaire de paquets NuGet de Visual Studio

IronOCR peut être inclus dans un projet C# en utilisant le gestionnaire de paquets NuGet de Visual Studio.

Accédez à l'interface graphique de NuGet Package Manager en sélectionnant Outils > NuGet Package Manager > Gestion des paquets NuGet pour la solution

Facture OCR API (tutoriel du développeur) : Figure 5 - Gestionnaire de paquets NuGet NuGet Package Manager

Une nouvelle fenêtre apparaît alors. Recherchez IronOCR et installez le paquet dans le projet.

Facture OCR API (tutoriel du développeur) : Figure 6 - Sélectionner le package IronOCR dans l'interface utilisateur du gestionnaire de packages NuGet Sélectionner le paquetage IronOCR dans l'interface utilisateur du gestionnaire de paquets NuGet

Des packs de langues supplémentaires pour IronOCR peuvent également être installés en utilisant la même méthode que celle décrite ci-dessus.

4.2. Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, allez dans Tools > NuGet Package Manager > Package Manager Console
  2. Saisissez la ligne suivante dans l'onglet Console du gestionnaire de paquets :
    :ProductInstall

Facture OCR API (tutoriel du développeur) : Figure 7 - Console du gestionnaire de paquets Console de gestion des paquets

Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.

5. Extraire des données de factures à l'aide d'IronOCR

En utilisant IronOCR, vous pouvez facilement extraire des données des factures avec seulement quelques lignes de code et utiliser cette extraction de données pour d'autres processus tels que la saisie de données. Cela remplacera la saisie manuelle des données et bien d'autres choses encore.

Voici un exemple de facture dont il faut extraire le texte.

Facture OCR API (tutoriel du développeur) : Figure 8 - Exemple de facture L'exemple de facture

Maintenant, écrivons le code pour extraire toutes les données de cette facture.

using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

Le code ci-dessus reçoit une entrée sous la forme d'une image et extrait ensuite les données de cette image à l'aide d'une fonction Lire de la méthode Tesseracte de fer classe.

Facture OCR API (tutoriel du développeur) : Figure 9 - Analyseur de factures Invoice Parser

5.1. Traitement des factures pour extraire des données spécifiques des factures

Vous pouvez également extraire des données spécifiques des factures, comme les numéros de factures des clients. Le code ci-dessous permet d'extraire le numéro de la facture du client.

using IronOcr;
using System;
using System.Text.RegularExpressions;
var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = orc.Read(input);
    var linePattern = @"INV\/\d{4}\/\d{5}";
    var lineMatch = Regex.Match(result.Text, linePattern);
    if (lineMatch.Success)
    {
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }
}
using IronOcr;
using System;
using System.Text.RegularExpressions;
var orc = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = orc.Read(input);
    var linePattern = @"INV\/\d{4}\/\d{5}";
    var lineMatch = Regex.Match(result.Text, linePattern);
    if (lineMatch.Success)
    {
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

Facture OCR API (tutoriel du développeur) : Figure 10 - Numérisation de la facture Scanner de factures

6. Conclusion

L'API d'OCR de factures d'IronOCR révolutionne l'extraction de données à partir de factures en utilisant l'apprentissage automatique et la vision par ordinateur. Cette technologie convertit le texte et les numéros des factures dans un format lisible par une machine, ce qui simplifie l'extraction des données à des fins d'analyse, d'intégration et d'amélioration des processus. Il offre une solution robuste pour automatiser le traitement des factures, améliorer la précision et optimiser les flux de travail comme la comptabilité fournisseurs. La saisie automatisée de données à partir de factures scannées est également possible grâce à cette technologie.

IronOCR offre une grande précision en utilisant les meilleurs résultats de Tesseract, sans aucun réglage supplémentaire. Il prend en charge cadre multipage TIFF, Fichiers PDFet tous les formats d'image courants. Il est également possible de lire les valeurs des codes-barres à partir d'images.

Veuillez consulter le site page d'accueil site web pour plus d'informations sur l'IronOCR. Pour plus de tutoriels sur l'OCR des factures, visitez les sites suivants détails facture tutoriel OCR. Pour en savoir plus sur l'utilisation de la vision par ordinateur pour trouver du texte tel que des champs de facture, consultez le site suivant vision par ordinateur comment faire.

< PRÉCÉDENT
Meilleur OCR pour le traitement des factures (liste mise à jour)
SUIVANT >
Comment lire le texte d'une image dans Blazor