UTILISATION DE L'IRONOCR

Extraction de données de reçus OCR (tutoriel étape par étape)

Mise à jour janvier 28, 2024
Partager:

L'OCR de reçus à l'aide d'IronOCR change la donne pour les entreprises comme pour les particuliers. Le processus vous permet d'extraire des informations importantes des reçus physiques et de les convertir en données numériques. Cet article vous explique, étape par étape, comment utiliser IronOCR pour tirer le meilleur parti de vos reçus.

Introduction rapide à l'OCR

La reconnaissance optique de caractères, ou OCR, est une technologie qui permet aux ordinateurs de lire et de comprendre du texte à partir d'images ou de documents scannés. En convertissant un texte manuscrit ou imprimé en texte lisible par une machine, l'OCR vous permet de stocker, de traiter et d'analyser les informations contenues dans les documents physiques.

2. Introduction à l'IronOCR

IronOCR est un OCR (Reconnaissance optique de caractères) pour les développeurs C# et .NET. Il permet aux développeurs de extraire du texte d'une image, PDFset d'autres formats de documents. IronOCR s'appuie sur l'application populaire Moteur OCR Tesseract et ajoute des fonctionnalités supplémentaires, ce qui en fait un choix idéal pour diverses applications, y compris l'OCR de reçus.

3. Avantages de l'utilisation d'IronOCR pour l'extraction de données

Voici quelques avantages clés de l'utilisation d'IronOCR pour l'extraction des données de réception OCR :

Haute précision : IronOCR offre une excellente précision de l'API OCR, garantissant une extraction fiable des données des reçus et autres documents.

Support multilingue: IronOCR prend en charge plus de 125 langues, ce qui le rend adapté aux applications mondiales.

Facile à utiliser : La bibliothèque offre une API simple et intuitive, ce qui permet aux développeurs d'implémenter facilement la fonctionnalité OCR dans leurs projets.

Personnalisable : IronOCR offre diverses options pour affiner les résultats de l'OCR et garantir une extraction de données optimale pour votre cas d'utilisation spécifique.

4. Fonctionnement de l'IronOCR

IronOCR utilise des algorithmes OCR avancés pour reconnaître et extraire du texte à partir d'images et de documents. Il peut traiter différents formats, notamment JPEG, PNG, TIFF et PDF. La bibliothèque lit le fichier d'entrée, reconnaît le texte qu'il contient et produit le texte extrait sous la forme d'une chaîne de caractères, qui peut ensuite être traitée ou stockée selon les besoins. IronOCR utilise également vision par ordinateur pour obtenir les meilleurs résultats.

5. Conditions préalables à l'utilisation d'IronOCR

Pour commencer à utiliser IronOCR pour l'extraction des données des reçus, vous devez d'abord installer le progiciel IronOCR. Cela peut se faire facilement grâce à NuGet, le gestionnaire de paquets pour .NET. Ouvrez simplement votre projet dans Visual Studio et suivez les étapes suivantes :

  1. Faites un clic droit sur votre projet dans l'explorateur de solutions et sélectionnez "Manage NuGet Packages".

  2. Dans la fenêtre du gestionnaire de paquets NuGet, recherchez "IronOCR".

  3. Sélectionnez le paquet IronOcr et cliquez sur "Installer".

    Extraction de données de reçus OCR (tutoriel étape par étape), Figure 1 : Rechercher le package IronOcr dans l'interface utilisateur du gestionnaire de packages NuGet

     **Recherche du paquet `IronOcr` dans l'interface utilisateur du gestionnaire de paquets NuGet**

6. Préparation de l'image du reçu

Avant d'extraire les données du reçu, vous devez vous assurer que les images du reçu sont de haute qualité afin d'améliorer la précision du processus API OCR du reçu. Voici quelques conseils pour obtenir une bonne image de votre reçu :

  1. Utiliser un document numérisé. Vous pouvez utiliser un scanner haute résolution pour numériser les reçus.

  2. Veillez à ce que le reçu soit bien éclairé et sans ombres.

  3. Redressez les plis sur le reçu, afin qu'aucune information essentielle ne soit cachée.

  4. Veillez à ce que le texte du reçu soit clair et non maculé afin d'améliorer le traitement des reçus.

    Extraction de données de reçus par OCR (tutoriel étape par étape), Figure 2 : Exemple d'image de reçu pour l'extraction de texte

     **Exemple d'image de reçu pour l'extraction de texte**

7. Exécution de l'OCR sur l'image du reçu

Une fois IronOCR installé et l'image de votre reçu prête, il est temps d'effectuer le processus d'OCR. Dans votre application .NET, utilisez l'extrait de code suivant :

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}
using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}
Imports IronOcr

Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
	Dim result = ocr.Read(ocrInput)
	Console.WriteLine(result.Text)
End Using
VB   C#

Explication du code

using IronOcr;
using IronOcr;
Imports IronOcr
VB   C#

Cette ligne importe la bibliothèque IronOCR dans votre application .NET, ce qui vous permet d'accéder à ses fonctionnalités.

var ocr = new IronTesseract();
var ocr = new IronTesseract();
Dim ocr = New IronTesseract()
VB   C#

Cette ligne crée une nouvelle instance du Tesseracte de fer la classe principale responsable des opérations d'OCR dans IronOCR.

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
VB   C#

Ici, une nouvelle instance du OcrInput est créée, qui représente l'image d'entrée pour le processus d'OCR. Le @"path/to/your/receipt/image.png " doit être remplacé par le chemin d'accès réel de l'image de votre reçu. L'instruction using garantit que les ressources allouées à l'instance OcrInput sont correctement libérées une fois l'opération d'OCR terminée.

var result = Ocr.Read(ocrInput);
var result = Ocr.Read(ocrInput);
Dim result = Ocr.Read(ocrInput)
VB   C#

Cette ligne appelle le Lire de l'instance IronTesseract, en passant l'objet OcrInput en paramètre. La méthode Read traite l'image d'entrée et effectue l'opération OCR, en reconnaissant et en extrayant le texte de l'image. Le processus d'accusé de réception commence alors.

Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text)
VB   C#

Enfin, cette ligne affiche le texte extrait sur la console. L'objet result, qui est une instance de la classe OcrResult contient le texte reconnu et des informations supplémentaires sur le processus d'OCR. Le texte extrait peut être affiché en accédant à la propriété Text de l'objet result.

Extraction des données des reçus par OCR (tutoriel étape par étape), Figure 3 : Sortie des textes extraits

Sortie des textes extraits

Affiner les résultats de l'OCR

IronOCR propose plusieurs options pour améliorer la précision et les performances de l'OCR. Il s'agit notamment de prétraiter l'image, d'ajuster les paramètres du moteur OCR et de choisir la langue appropriée pour votre reçu.

Prétraitement des images

Vous pouvez améliorer les résultats de l'OCR en appliquant des techniques de prétraitement de l'image telles que :

  1. Désalignement : Corrige toute rotation ou inclinaison de l'image.

  2. Débruitage : Améliorer la lisibilité du texte en supprimant le bruit des images.

    Voici un exemple d'application de ces techniques :

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Imports IronOcr

Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
	input.DeNoise()
	input.DeSkew()

	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
VB   C#

Sélection de la langue

IronOCR prend en charge plus de 125 langues, et le choix de la langue correcte pour votre reçu peut améliorer considérablement les résultats de l'OCR. Pour spécifier la langue, ajoutez la ligne suivante à votre code :

ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English
VB   C#

Extraction de données à partir des résultats de l'OCR

Une fois le processus d'OCR terminé, il est temps d'extraire des informations spécifiques du texte. En fonction de vos besoins, vous pouvez extraire des données telles que

  1. Nom et adresse du magasin.

  2. Date et heure d'achat.

  3. Noms et prix des articles.

  4. Sous-total, taxe et montant total.

    Pour ce faire, vous pouvez utiliser des expressions régulières ou des techniques de manipulation de chaînes dans votre application .NET. Par exemple, vous pouvez extraire la date du résultat de l'OCR à l'aide de l'extrait de code suivant :

using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}
using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}
Imports System.Text.RegularExpressions

'Rest of the Code

Private DatePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"
Private DateMatch = Regex.Match(Result.Text, DatePattern)
If DateMatch.Success Then
	Dim DateValue = DateTime.Parse(DateMatch.Value)
	Console.WriteLine("Date: " & DateValue)
End If
VB   C#

Vous pouvez créer des modèles similaires pour d'autres éléments d'information que vous devez extraire du reçu.

Stockage et analyse des données extraites

Maintenant que vous avez extrait les informations pertinentes de votre reçu, vous pouvez les stocker dans une base de données, les analyser ou les exporter vers d'autres formats de fichiers tels que CSV, JSON ou Excel.

Conclusion

En conclusion, l'OCR de reçus à l'aide d'IronOCR est une solution innovante et efficace pour la numérisation et la gestion de vos données financières ; avec IronOCR, vous pouvez remplacer la saisie manuelle des données. En suivant ce guide étape par étape, vous pouvez exploiter la puissance d'IronOCR pour améliorer votre suivi des dépenses et l'analyse des données. Le plus beau, c'est qu'IronOCR offre une essai gratuitvous pouvez ainsi découvrir ses capacités sans aucun engagement de votre part.

Après la période d'essai, si vous décidez de continuer à utiliser IronOCR, la licence commence à partir de $749, ce qui constitue un moyen rentable d'exploiter les avantages de la technologie OCR dans vos applications.

< PRÉCÉDENT
Comment lire le texte d'une image dans Blazor
SUIVANT >
OCR avec vision par ordinateur (exemple de tutoriel)