UTILISATION DE L'IRONOCR

API de numérisation des reçus (tutoriel du développeur)

Mise à jour février 11, 2024
Partager:

Une API de numérisation des reçus permet d'extraire des données clés des reçus à l'aide d'une technologie OCR avancée. Il rationalise le processus de saisie des données en éliminant les erreurs manuelles et en améliorant la productivité. L'API, polyvalente et précise, prend en charge plusieurs langues, devises et formats. En automatisant l'analyse des reçus, les entreprises peuvent obtenir des informations sur les habitudes de dépenses et prendre des décisions fondées sur des données. Cet article montre comment utiliser la bibliothèque C# OCR,IronOCRle système de gestion de l'information permet d'extraire des informations importantes d'un ticket de caisse.

IronOCR

IronOCR est une bibliothèque et une API OCR polyvalente développée par Iron Software, offrant aux développeurs une solution puissante pour l'extraction de texte à partir de diverses sources telles que les documents numérisés, les images et les PDF. Grâce à ses algorithmes d'OCR avancés, à sa vision par ordinateur et à ses modèles d'apprentissage automatique, IronOCR garantit une précision et une fiabilité élevées, même dans des scénarios difficiles. La bibliothèque prend en charge plusieurs langues et styles de polices, ce qui la rend adaptée aux applications internationales. En intégrant IronOCR avec des capacités de modèles d'apprentissage automatique dans leurs applications, les développeurs peuvent facilement automatiser la saisie de données, l'analyse de texte et d'autres tâches, améliorant ainsi la productivité et l'efficacité.

Avec IronOCR, les développeurs peuvent récupérer sans effort du texte provenant de diverses sources, notamment des documents, des photographies, des captures d'écran et même des flux de caméra en direct sous forme de réponses JSON. En utilisant des algorithmes sophistiqués et des modèles d'apprentissage automatique, IronOCRanalyse les données de l'imageil reconnaît les caractères individuels et les convertit en texte lisible par une machine. Le texte extrait peut ensuite être utilisé à diverses fins, telles que la saisie de données, la recherche d'informations, l'analyse de texte et l'automatisation de tâches manuelles.

Conditions préalables

Avant de commencer à travailler avec IronOCR, quelques conditions préalables doivent être remplies. Ces conditions préalables sont les suivantes

  1. Assurez-vous que vous disposez d'un environnement de développement adéquat sur votre ordinateur. Cela implique généralement de disposer d'un environnement de développement intégré(L'IDE) comme Visual Studio.

  2. Il est important d'avoir une compréhension de base du langage de programmation C#. Cela vous permettra de comprendre et de modifier efficacement les exemples de code fournis dans l'article.

  3. La bibliothèque IronOCR doit être installée dans votre projet. Pour ce faire, vous pouvez utiliser le gestionnaire de paquets NuGet dans Visual Studio ou l'interface de ligne de commande.

    En vous assurant que ces conditions préalables sont remplies, vous serez prêt à vous plonger dans le processus de travail avec IronOCR.

Création d'un nouveau projet Visual Studio

Pour commencer à utiliser IronOCR, la première étape consiste à créer un nouveau projet Visual Studio.

Ouvrez Visual Studio et allez dans Fichiers, puis survolez Nouveau, et cliquez sur Projet.

API de numérisation des reçus(Tutoriel du développeur), Figure 1 : Nouvelle image de projet

**Nouvelle image du projet

Dans la nouvelle fenêtre, sélectionnez Application Console et cliquez sur Suivant.

API de numérisation des reçus(Tutoriel du développeur), Figure 2 : Application console

Console Application

Une nouvelle fenêtre apparaît. Inscrivez le nom de votre nouveau projet et son emplacement, puis cliquez sur Suivant.

API de numérisation des reçus(Tutoriel du développeur), Figure 3 : Configuration du projet

Configuration du projet

Enfin, indiquez le cadre cible et cliquez sur Créer.

API de numérisation des reçus(Tutoriel du développeur), Figure 4 : Cadre cible

Cadre cible

Maintenant que votre nouveau projet Visual Studio est créé, installons l'IronOCR.

Installation de l'IronOCR

Il existe plusieurs méthodes pour télécharger et installer la bibliothèque IronOCR. Voici cependant les deux approches les plus simples.

  1. Utilisation du gestionnaire de paquets NuGet de Visual Studio

  2. Utilisation de la ligne de commande de Visual Studio

Utilisation du gestionnaire de paquets NuGet de Visual Studio

IronOCR peut être inclus dans un projet C# en utilisant le gestionnaire de paquets NuGet de Visual Studio.

Accédez à l'interface graphique de NuGet Package Manager en sélectionnant Outils > NuGet Package Manager > Gestion des paquets NuGet pour la solution

API de numérisation des reçus(Tutoriel du développeur), Figure 5 : Gestionnaire de paquets NuGet

NuGet Package Manager

Une nouvelle fenêtre apparaît alors. Recherchez IronOCR et installez le paquet dans le projet.

API de numérisation des reçus(Tutoriel du développeur), Figure 6 : IronOCR

IronOCR

Des packs de langues supplémentaires pour IronOCR peuvent également être installés en utilisant la même méthode que celle décrite ci-dessus.

Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, allez dans Tools > NuGet Package Manager > Package Manager Console

  2. Saisissez la ligne suivante dans l'onglet Console du gestionnaire de paquets :
    :ProductInstall

API de numérisation des reçus(Tutoriel du développeur), Figure 7 : Console du gestionnaire de paquets

**Console de gestion des paquets**

Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.

Extraction de données à l'aide de l'API OCR de la réception

L'extraction de données à partir d'images de reçus à l'aide d'IronOCR et leur enregistrement sous forme de données structurées est une véritable bouée de sauvetage pour la plupart des développeurs. Avec IronOCR, vous pouvez y parvenir en quelques lignes de code seulement. Il vous permet d'extraire des lignes, des prix, des montants de taxes, des montants totaux et bien d'autres choses encore avec différents types de documents.

using IronOcr;
using System;
using System.Collections.Generic;
using System.Text.RegularExpressions;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = ocr.Read(input);
    var descriptionPattern = @"\[([A-Z0-9_]+)]\s+(.*?)\s+(\d+\.\d+)\s+Units\s+(\d+\.\d+)\s+Tax15%\s+\$(\d+\.\d+)";
    var pricePattern = @"\$\d+(\.\d{2})?";
    var descriptions = new List<string>();
    var unitPrices = new List<decimal>();
    var taxes = new List<decimal>();
    var amounts = new List<decimal>();
    var lines = result.Text.Split('\n');
    var descriptionMatch = Regex.Match(lines, descriptionPattern);
    if (descriptionMatch.Success)
    {
        var DescriptionValue = descriptionMatch.Groups [2].Value.Trim();
        descriptions.Add(DescriptionValue);
    }
    Console.WriteLine("Description: " + descriptions [i]);
    Console.WriteLine("Quantity: 1.00 Units");
    Console.WriteLine("Unit Price: $" + unitPrices [i]);
    taxes.Add(cost [i] * 0.15m); // Calculate Taxes (15%)
    Console.WriteLine("Taxes: $" + taxes [i]);
    amounts.Add(unitPrices [i] + taxes [i]);
    Console.WriteLine("Amount: $" + amounts [i]);
    Console.WriteLine("-----------------------");
}
using IronOcr;
using System;
using System.Collections.Generic;
using System.Text.RegularExpressions;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"r2.png"))
{
    var result = ocr.Read(input);
    var descriptionPattern = @"\[([A-Z0-9_]+)]\s+(.*?)\s+(\d+\.\d+)\s+Units\s+(\d+\.\d+)\s+Tax15%\s+\$(\d+\.\d+)";
    var pricePattern = @"\$\d+(\.\d{2})?";
    var descriptions = new List<string>();
    var unitPrices = new List<decimal>();
    var taxes = new List<decimal>();
    var amounts = new List<decimal>();
    var lines = result.Text.Split('\n');
    var descriptionMatch = Regex.Match(lines, descriptionPattern);
    if (descriptionMatch.Success)
    {
        var DescriptionValue = descriptionMatch.Groups [2].Value.Trim();
        descriptions.Add(DescriptionValue);
    }
    Console.WriteLine("Description: " + descriptions [i]);
    Console.WriteLine("Quantity: 1.00 Units");
    Console.WriteLine("Unit Price: $" + unitPrices [i]);
    taxes.Add(cost [i] * 0.15m); // Calculate Taxes (15%)
    Console.WriteLine("Taxes: $" + taxes [i]);
    amounts.Add(unitPrices [i] + taxes [i]);
    Console.WriteLine("Amount: $" + amounts [i]);
    Console.WriteLine("-----------------------");
}
Imports Microsoft.VisualBasic
Imports IronOcr
Imports System
Imports System.Collections.Generic
Imports System.Text.RegularExpressions

Private ocr = New IronTesseract()
Using input = New OcrInput("r2.png")
	Dim result = ocr.Read(input)
	Dim descriptionPattern = "\[([A-Z0-9_]+)]\s+(.*?)\s+(\d+\.\d+)\s+Units\s+(\d+\.\d+)\s+Tax15%\s+\$(\d+\.\d+)"
	Dim pricePattern = "\$\d+(\.\d{2})?"
	Dim descriptions = New List(Of String)()
	Dim unitPrices = New List(Of Decimal)()
	Dim taxes = New List(Of Decimal)()
	Dim amounts = New List(Of Decimal)()
	Dim lines = result.Text.Split(ControlChars.Lf)
	Dim descriptionMatch = Regex.Match(lines, descriptionPattern)
	If descriptionMatch.Success Then
		Dim DescriptionValue = descriptionMatch.Groups (2).Value.Trim()
		descriptions.Add(DescriptionValue)
	End If
	Console.WriteLine("Description: " & descriptions (i))
	Console.WriteLine("Quantity: 1.00 Units")
	Console.WriteLine("Unit Price: $" & unitPrices (i))
	taxes.Add(cost (i) * 0.15D) ' Calculate Taxes (15%)
	Console.WriteLine("Taxes: $" & taxes (i))
	amounts.Add(unitPrices (i) + taxes (i))
	Console.WriteLine("Amount: $" & amounts (i))
	Console.WriteLine("-----------------------")
End Using
VB   C#

Comme vous pouvez le voir ci-dessous, IronOCR peut facilement extraire le texte requis du reçu.

API de numérisation des reçus(Tutoriel du développeur), Figure 8 : Sortie

Sortie

Extraire l'intégralité du reçu

Si vous souhaitez extraire l'intégralité du reçu, vous pouvez facilement le faire avec quelques lignes de code sur le reçu OCR.

using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"r3.png"))
{
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"r3.png"))
{
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System

Private ocr = New IronTesseract()
Using input = New OcrInput("r3.png")
	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
VB   C#

API de numérisation des reçus(Tutoriel du développeur), Figure 9 : Sortie de l'API Scanner le reçu

Scanner la sortie de l'API de réception

L'API de numérisation d'images de reçus, telle qu'IronOCR, offre une solution logicielle puissante pour automatiser l'extraction de données à partir de reçus. En tirant parti de la technologie OCR avancée, les entreprises peuvent facilement extraire des informations importantes des images ou des scans de reçus, notamment les noms des fournisseurs, les dates d'achat, les listes détaillées, les prix, les taxes et les montants totaux. Avec le soutien deplusieurs langues, devises, formats de réceptionetsupport pour les codes-barresles entreprises peuvent ainsi rationaliser leurs processus de gestion des reçus, gagner du temps, mieux connaître les habitudes de dépenses et prendre des décisions fondées sur des données. IronOCR, en tant que bibliothèque et API OCR polyvalente, fournit aux développeurs les outils dont ils ont besoin pour extraire du texte de diverses sources avec précision et efficacité, ce qui permet d'automatiser les tâches et d'améliorer l'efficacité globale. En remplissant les conditions préalables nécessaires et en intégrant IronOCR dans leurs applications, les développeurs peuvent exploiter les avantages du traitement des données de réception et améliorer leurs flux de travail.

Pour plus d'informations sur IronOCR, consultez le site suivantpage d'autorisation. Pour en savoir plus sur l'utilisation de la vision artificielle pour trouver du texte, consultez le site suivantvision par ordinateur page pratique. Pour plus de tutoriels sur la réception OCR, visitez le site suivantTutoriel C# sur l'OCR.

< PRÉCÉDENT
Guide d'automatisation de l'OCR pour les développeurs
SUIVANT >
Meilleur OCR pour le traitement des factures (liste mise à jour)