Extraction de données de reçus OCR (tutoriel étape par étape)
Mise à jour janvier 28, 2024
Partager:
L'OCR de reçus à l'aide d'IronOCR change la donne pour les entreprises comme pour les particuliers. Le processus vous permet d'extraire des informations importantes des reçus physiques et de les convertir en données numériques. Cet article vous explique, étape par étape, comment utiliser IronOCR pour tirer le meilleur parti de vos reçus.
Introduction rapide à l'OCR
La reconnaissance optique de caractères, ou OCR, est une technologie qui permet aux ordinateurs de lire et de comprendre du texte à partir d'images ou de documents scannés. En convertissant le texte imprimé en texte lisible par machine, l'OCR vous permet de stocker, traiter et analyser les informations contenues dans les documents physiques.
2. Introduction à l'IronOCR
IronOCR est un OCR(Reconnaissance optique de caractères) pour les développeurs C# et .NET. Il permet aux développeurs deextraire du texte d'une image, PDFset d'autres formats de documents. IronOCR s'appuie sur l'application populaireMoteur OCR Tesseract et ajoute des fonctionnalités supplémentaires, ce qui en fait un choix idéal pour diverses applications, y compris l'OCR de reçus.
3. Avantages de l'utilisation d'IronOCR pour l'extraction de données
Voici quelques avantages clés de l'utilisation d'IronOCR pour l'extraction des données de réception OCR :
Haute précision : IronOCR offre une excellente précision de l'API OCR, garantissant une extraction fiable des données des reçus et autres documents.
Support multilingue: IronOCR prend en charge plus de 125 langues, ce qui le rend adapté aux applications mondiales.
Facile à utiliser : La bibliothèque offre une API simple et intuitive, ce qui permet aux développeurs d'implémenter facilement la fonctionnalité OCR dans leurs projets.
Personnalisable : IronOCRoffre diverses options pour affiner les résultats de l'OCR et garantir une extraction de données optimale pour votre cas d'utilisation spécifique.
4. Fonctionnement de l'IronOCR
IronOCR utilise des algorithmes OCR avancés pour reconnaître et extraire du texte à partir d'images et de documents. Il peut traiter différents formats, notamment JPEG, PNG, TIFF et PDF. La bibliothèque lit le fichier d'entrée, reconnaît le texte qu'il contient et produit le texte extrait sous la forme d'une chaîne de caractères, qui peut ensuite être traitée ou stockée selon les besoins. IronOCR utilise égalementvision par ordinateur pour obtenir les meilleurs résultats.
5. Conditions préalables à l'utilisation d'IronOCR
Pour commencer à utiliser IronOCR pour l'extraction des données des reçus, vous devez d'abord installer le progiciel IronOCR. Cela peut se faire facilement grâce à NuGet, le gestionnaire de paquets pour .NET. Ouvrez simplement votre projet dans Visual Studio et suivez les étapes suivantes :
Faites un clic droit sur votre projet dans l'explorateur de solutions et sélectionnez "Manage NuGet Packages".
Dans la fenêtre du gestionnaire de paquets NuGet, recherchez "IronOCR".
Sélectionnez le paquet IronOcr et cliquez sur "Installer".
Recherche du paquet IronOcr dans l'interface utilisateur du gestionnaire de paquets NuGet
6. Préparation de l'image du reçu
Avant d'extraire les données du reçu, vous devez vous assurer que les images du reçu sont de haute qualité afin d'améliorer la précision du processus API OCR du reçu. Voici quelques conseils pour obtenir une bonne image de votre reçu :
Utiliser un document numérisé. Vous pouvez utiliser un scanner haute résolution pour numériser les reçus.
Veillez à ce que le reçu soit bien éclairé et sans ombres.
Redressez les plis sur le reçu, afin qu'aucune information essentielle ne soit cachée.
Veillez à ce que le texte du reçu soit clair et non maculé afin d'améliorer le traitement des reçus.
Exemple d'image de reçu pour l'extraction de texte
7. Exécution de l'OCR sur l'image du reçu
Une fois IronOCR installé et l'image de votre reçu prête, il est temps d'effectuer le processus d'OCR. Dans votre application .NET, utilisez l'extrait de code suivant :
using IronOcr;
var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
var result = ocr.Read(ocrInput);
Console.WriteLine(result.Text);
}
using IronOcr;
var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
var result = ocr.Read(ocrInput);
Console.WriteLine(result.Text);
}
Imports IronOcr
Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
Dim result = ocr.Read(ocrInput)
Console.WriteLine(result.Text)
End Using
$vbLabelText $csharpLabel
Explication du code
using IronOcr;
using IronOcr;
Imports IronOcr
$vbLabelText $csharpLabel
Cette ligne importe la bibliothèque IronOCR dans votre application .NET, ce qui vous permet d'accéder à ses fonctionnalités.
var ocr = new IronTesseract();
var ocr = new IronTesseract();
Dim ocr = New IronTesseract()
$vbLabelText $csharpLabel
Cette ligne crée une nouvelle instance duTesseracte de fer la classe principale responsable des opérations d'OCR dans IronOCR.
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
$vbLabelText $csharpLabel
Ici, une nouvelle instance duOcrInput est créée, qui représente l'image d'entrée pour le processus d'OCR. Le @"path/to/your/receipt/image.png " doit être remplacé par le chemin d'accès réel de l'image de votre reçu. L'instruction using garantit que les ressources allouées à l'instance OcrInput sont correctement libérées une fois l'opération d'OCR terminée.
var result = Ocr.Read(ocrInput);
var result = Ocr.Read(ocrInput);
Dim result = Ocr.Read(ocrInput)
$vbLabelText $csharpLabel
Cette ligne appelle leLire de l'instance IronTesseract, en passant l'objet OcrInput en paramètre. La méthode Read traite l'image d'entrée et effectue l'opération OCR, en reconnaissant et en extrayant le texte de l'image. Le processus d'accusé de réception commence alors.
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text)
$vbLabelText $csharpLabel
Enfin, cette ligne affiche le texte extrait sur la console. L'objet result, qui est une instance de la classeOcrResult contient le texte reconnu et des informations supplémentaires sur le processus d'OCR. Le texte extrait peut être affiché en accédant à la propriété Text de l'objet result.
Sortie des textes extraits
Affiner les résultats de l'OCR
IronOCR propose plusieurs options pour améliorer la précision et les performances de l'OCR. Il s'agit notamment de prétraiter l'image, d'ajuster les paramètres du moteur OCR et de choisir la langue appropriée pour votre reçu.
Prétraitement des images
Vous pouvez améliorer les résultats de l'OCR en appliquant des techniques de prétraitement de l'image telles que :
Désalignement : Corrige toute rotation ou inclinaison de l'image.
Débruitage : Améliorer la lisibilité du texte en supprimant le bruit des images.
Voici un exemple d'application de ces techniques :
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
input.DeNoise();
input.DeSkew();
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
input.DeNoise();
input.DeSkew();
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
Imports IronOcr
Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
input.DeNoise()
input.DeSkew()
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
$vbLabelText $csharpLabel
Sélection de la langue
IronOCR prend en charge plus de 125 langues, et le choix de la langue correcte pour votre reçu peut améliorer considérablement les résultats de l'OCR. Pour spécifier la langue, ajoutez la ligne suivante à votre code :
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English
$vbLabelText $csharpLabel
Extraction de données à partir des résultats de l'OCR
Une fois le processus d'OCR terminé, il est temps d'extraire des informations spécifiques du texte. En fonction de vos besoins, vous pouvez extraire des données telles que
Nom et adresse du magasin.
Date et heure d'achat.
Noms et prix des articles.
Sous-total, taxe et montant total.
Pour ce faire, vous pouvez utiliser des expressions régulières ou des techniques de manipulation de chaînes dans votre application .NET. Par exemple, vous pouvez extraire la date du résultat de l'OCR à l'aide de l'extrait de code suivant :
using System.Text.RegularExpressions;
//Rest of the Code
var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
var DateValue = DateTime.Parse(DateMatch.Value);
Console.WriteLine("Date: " + DateValue);
}
using System.Text.RegularExpressions;
//Rest of the Code
var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
var DateValue = DateTime.Parse(DateMatch.Value);
Console.WriteLine("Date: " + DateValue);
}
Imports System.Text.RegularExpressions
'Rest of the Code
Private DatePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"
Private DateMatch = Regex.Match(Result.Text, DatePattern)
If DateMatch.Success Then
Dim DateValue = DateTime.Parse(DateMatch.Value)
Console.WriteLine("Date: " & DateValue)
End If
$vbLabelText $csharpLabel
Vous pouvez créer des modèles similaires pour d'autres éléments d'information que vous devez extraire du reçu.
Stockage et analyse des données extraites
Maintenant que vous avez extrait les informations pertinentes de votre reçu, vous pouvez les stocker dans une base de données, les analyser ou les exporter vers d'autres formats de fichiers tels que CSV, JSON ou Excel.
Conclusion
En conclusion, l'OCR de reçus à l'aide d'IronOCR est une solution innovante et efficace pour la numérisation et la gestion de vos données financières ; avec IronOCR, vous pouvez remplacer la saisie manuelle des données. En suivant ce guide étape par étape, vous pouvez exploiter la puissance d'IronOCR pour améliorer votre suivi des dépenses et l'analyse des données. Le plus beau, c'est qu'IronOCR offre uneessai gratuitvous pouvez ainsi découvrir ses capacités sans aucun engagement de votre part.
Après la période d'essai, si vous décidez de continuer à utiliser IronOCR, la licence commence à partir de $749, ce qui constitue un moyen rentable d'exploiter les avantages de la technologie OCR dans vos applications.
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT Comment lire le texte d'une image dans Blazor
SUIVANT > OCR avec vision par ordinateur (exemple de tutoriel)
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucune obligation de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre gratuit Démonstration en direct
Fiable par plus de 2 millions d'ingénieurs dans le monde entier