UTILISATION DE L'IRONOCR

Extraction de données de reçus OCR (tutoriel étape par étape)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

mai 8, 2023

Mise à jour janvier 28, 2024

L'OCR de reçus à l'aide d'IronOCR change la donne pour les entreprises comme pour les particuliers. Le processus vous permet d'extraire des informations importantes des reçus physiques et de les convertir en données numériques. Cet article vous explique, étape par étape, comment utiliser IronOCR pour tirer le meilleur parti de vos reçus.

Introduction rapide à l'OCR

La reconnaissance optique de caractères, ou OCR, est une technologie qui permet aux ordinateurs de lire et de comprendre du texte à partir d'images ou de documents scannés. En convertissant le texte imprimé en texte lisible par machine, l'OCR vous permet de stocker, traiter et analyser les informations contenues dans les documents physiques.

2. Introduction à l'IronOCR

IronOCR est une bibliothèque OCR (reconnaissance optique de caractères) pour les développeurs C# et .NET. Il permet aux développeurs d'extraire du texte à partir d'images, de PDF et d'autres formats de documents. IronOCR est construit sur le populaire moteur Tesseract OCR et ajoute des fonctionnalités supplémentaires, ce qui en fait un choix idéal pour diverses applications, y compris l'OCR des reçus.

3. Avantages de l'utilisation d'IronOCR pour l'extraction de données

Voici quelques avantages clés de l'utilisation d'IronOCR pour l'extraction des données de réception OCR :

Haute précision : IronOCR offre une excellente précision de l'API OCR, garantissant une extraction fiable des données à partir des reçus et autres documents.

Prise en charge multilingue : IronOCR prend en charge plus de 125 langues, ce qui le rend adapté aux applications mondiales.

Facile à utiliser : La bibliothèque offre une API simple et intuitive, facilitant l'intégration de la fonctionnalité OCR pour les développeurs dans leurs projets.

Personnalisable : IronOCR offre diverses options pour affiner les résultats OCR, garantissant une extraction de données optimale pour votre cas d'utilisation spécifique.

4. Fonctionnement de l'IronOCR

IronOCR utilise des algorithmes OCR avancés pour reconnaître et extraire du texte à partir d'images et de documents. Il peut traiter différents formats, notamment JPEG, PNG, TIFF et PDF. La bibliothèque lit le fichier d'entrée, reconnaît le texte qu'il contient et produit le texte extrait sous la forme d'une chaîne de caractères, qui peut ensuite être traitée ou stockée selon les besoins. IronOCR utilise également la vision par ordinateur pour des résultats optimaux.

5. Conditions préalables à l'utilisation d'IronOCR

Pour commencer à utiliser IronOCR pour l'extraction des données des reçus, vous devez d'abord installer le progiciel IronOCR. Cela peut se faire facilement grâce à NuGet, le gestionnaire de paquets pour .NET. Ouvrez simplement votre projet dans Visual Studio et suivez les étapes suivantes :

Faites un clic droit sur votre projet dans l'explorateur de solutions et sélectionnez "Manage NuGet Packages".
Dans la fenêtre du gestionnaire de paquets NuGet, recherchez "IronOCR".
Sélectionnez le package IronOcr et cliquez sur "Installer".
Recherchez le package IronOcr dans l'interface utilisateur du gestionnaire de packages NuGet

6. Préparation de l'image du reçu

Avant d'extraire les données du reçu, vous devez vous assurer que les images du reçu sont de haute qualité afin d'améliorer la précision du processus API OCR du reçu. Voici quelques conseils pour obtenir une bonne image de votre reçu :

Utiliser un document numérisé. Vous pouvez utiliser un scanner haute résolution pour numériser les reçus.
Veillez à ce que le reçu soit bien éclairé et sans ombres.
Redressez les plis sur le reçu, afin qu'aucune information essentielle ne soit cachée.
Veillez à ce que le texte du reçu soit clair et non maculé afin d'améliorer le traitement des reçus.
Exemple d'image de reçu pour l'extraction de texte

7. Exécution de l'OCR sur l'image du reçu

Une fois IronOCR installé et l'image de votre reçu prête, il est temps d'effectuer le processus d'OCR. Dans votre application .NET, utilisez l'extrait de code suivant :

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}

Imports IronOcr

Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
	Dim result = ocr.Read(ocrInput)
	Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

Explication du code

using IronOcr;

using IronOcr;

Imports IronOcr

$vbLabelText $csharpLabel

Cette ligne importe la bibliothèque IronOCR dans votre application .NET, ce qui vous permet d'accéder à ses fonctionnalités.

var ocr = new IronTesseract();

var ocr = new IronTesseract();

Dim ocr = New IronTesseract()

$vbLabelText $csharpLabel

Cette ligne crée une nouvelle instance de la classe IronTesseract, la classe principale responsable des opérations OCR dans IronOCR.

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))

Using ocrInput As New OcrInput("path/to/your/receipt/image.png")

$vbLabelText $csharpLabel

Ici, une nouvelle instance de la classe OcrInput est créée, ce qui représente l'image d'entrée pour le processus OCR. Le @"path/to/your/receipt/image.png" doit être remplacé par le chemin réel du fichier de votre image de reçu. L'instruction using garantit que les ressources allouées à l'instance OcrInput sont correctement libérées une fois l'opération OCR terminée.

var result = Ocr.Read(ocrInput);

var result = Ocr.Read(ocrInput);

Dim result = Ocr.Read(ocrInput)

$vbLabelText $csharpLabel

Cette ligne appelle la méthode Read de l'instance IronTesseract, en passant l'objet OcrInput en tant que paramètre. La méthode Read traite l'image d'entrée et effectue l'opération OCR, reconnaissant et extrayant le texte de l'image. Le processus d'accusé de réception commence alors.

Console.WriteLine(Result.Text);

Console.WriteLine(Result.Text);

Console.WriteLine(Result.Text)

$vbLabelText $csharpLabel

Enfin, cette ligne affiche le texte extrait sur la console. L'objet result, qui est une instance de la classe OcrResult, contient le texte reconnu et des informations supplémentaires sur le processus OCR. Le texte extrait peut être affiché en accédant à la propriété Text de l'objet result.

Extraction de données de reçus OCR (Tutoriel étape par étape), Figure 3 : Résultat des textes extraits

Sortie des textes extraits

Affiner les résultats de l'OCR

IronOCR propose plusieurs options pour améliorer la précision et les performances de l'OCR. Il s'agit notamment de prétraiter l'image, d'ajuster les paramètres du moteur OCR et de choisir la langue appropriée pour votre reçu.

Prétraitement des images

Vous pouvez améliorer les résultats de l'OCR en appliquant des techniques de prétraitement de l'image telles que :

Désalignement : Corrige toute rotation ou inclinaison de l'image.
Débruitage : Améliorer la lisibilité du texte en supprimant le bruit des images.
Voici un exemple d'application de ces techniques :

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}

Imports IronOcr

Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
	input.DeNoise()
	input.DeSkew()

	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

Sélection de la langue

IronOCR prend en charge plus de 125 langues, et le choix de la langue correcte pour votre reçu peut améliorer considérablement les résultats de l'OCR. Pour spécifier la langue, ajoutez la ligne suivante à votre code :

ocr.Configuration.Language = OcrLanguage.English;

ocr.Configuration.Language = OcrLanguage.English;

ocr.Configuration.Language = OcrLanguage.English

$vbLabelText $csharpLabel

Extraction de données à partir des résultats de l'OCR

Une fois le processus d'OCR terminé, il est temps d'extraire des informations spécifiques du texte. En fonction de vos besoins, vous pouvez extraire des données telles que

Nom et adresse du magasin.
Date et heure d'achat.
Noms et prix des articles.
Sous-total, taxe et montant total.
Pour ce faire, vous pouvez utiliser des expressions régulières ou des techniques de manipulation de chaînes dans votre application .NET. Par exemple, vous pouvez extraire la date du résultat de l'OCR à l'aide de l'extrait de code suivant :

using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}

using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}

Imports System.Text.RegularExpressions

'Rest of the Code

Private DatePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"
Private DateMatch = Regex.Match(Result.Text, DatePattern)
If DateMatch.Success Then
	Dim DateValue = DateTime.Parse(DateMatch.Value)
	Console.WriteLine("Date: " & DateValue)
End If

$vbLabelText $csharpLabel

Vous pouvez créer des modèles similaires pour d'autres éléments d'information que vous devez extraire du reçu.

Stockage et analyse des données extraites

Maintenant que vous avez extrait les informations pertinentes de votre reçu, vous pouvez les stocker dans une base de données, les analyser ou les exporter vers d'autres formats de fichiers tels que CSV, JSON ou Excel.

Conclusion

En conclusion, l'OCR de reçus à l'aide d'IronOCR est une solution innovante et efficace pour la numérisation et la gestion de vos données financières ; avec IronOCR, vous pouvez remplacer la saisie manuelle des données. En suivant ce guide étape par étape, vous pouvez exploiter la puissance d'IronOCR pour améliorer votre suivi des dépenses et l'analyse des données. La meilleure partie est qu'IronOCR offre un essai gratuit, vous permettant de découvrir ses capacités sans aucun engagement.

Après la période d'essai, si vous décidez de continuer à utiliser IronOCR, la licence commence à partir de $749, offrant un moyen rentable de tirer parti des avantages de la technologie OCR dans vos applications.

Kannapat Udonpant

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.

< PRÉCÉDENT
Comment lire le texte d'une image dans Blazor

SUIVANT >
OCR avec vision par ordinateur (exemple de tutoriel)