Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
L'OCR de reçus à l'aide d'IronOCR change la donne pour les entreprises comme pour les particuliers. Le processus vous permet d'extraire des informations importantes des reçus physiques et de les convertir en données numériques. Cet article vous explique, étape par étape, comment utiliser IronOCR pour tirer le meilleur parti de vos reçus.
La reconnaissance optique de caractères, ou OCR, est une technologie qui permet aux ordinateurs de lire et de comprendre du texte à partir d'images ou de documents scannés. En convertissant un texte manuscrit ou imprimé en texte lisible par une machine, l'OCR vous permet de stocker, de traiter et d'analyser les informations contenues dans les documents physiques.
IronOCR est un OCR (Reconnaissance optique de caractères) pour les développeurs C# et .NET. Il permet aux développeurs de extraire du texte d'une image, PDFset d'autres formats de documents. IronOCR s'appuie sur l'application populaire Moteur OCR Tesseract et ajoute des fonctionnalités supplémentaires, ce qui en fait un choix idéal pour diverses applications, y compris l'OCR de reçus.
Voici quelques avantages clés de l'utilisation d'IronOCR pour l'extraction des données de réception OCR :
Haute précision : IronOCR offre une excellente précision de l'API OCR, garantissant une extraction fiable des données des reçus et autres documents.
Support multilingue: IronOCR prend en charge plus de 125 langues, ce qui le rend adapté aux applications mondiales.
Facile à utiliser : La bibliothèque offre une API simple et intuitive, ce qui permet aux développeurs d'implémenter facilement la fonctionnalité OCR dans leurs projets.
Personnalisable : IronOCR offre diverses options pour affiner les résultats de l'OCR et garantir une extraction de données optimale pour votre cas d'utilisation spécifique.
IronOCR utilise des algorithmes OCR avancés pour reconnaître et extraire du texte à partir d'images et de documents. Il peut traiter différents formats, notamment JPEG, PNG, TIFF et PDF. La bibliothèque lit le fichier d'entrée, reconnaît le texte qu'il contient et produit le texte extrait sous la forme d'une chaîne de caractères, qui peut ensuite être traitée ou stockée selon les besoins. IronOCR utilise également vision par ordinateur pour obtenir les meilleurs résultats.
Pour commencer à utiliser IronOCR pour l'extraction des données des reçus, vous devez d'abord installer le progiciel IronOCR. Cela peut se faire facilement grâce à NuGet, le gestionnaire de paquets pour .NET. Ouvrez simplement votre projet dans Visual Studio et suivez les étapes suivantes :
Faites un clic droit sur votre projet dans l'explorateur de solutions et sélectionnez "Manage NuGet Packages".
Dans la fenêtre du gestionnaire de paquets NuGet, recherchez "IronOCR".
Sélectionnez le paquet IronOcr
et cliquez sur "Installer".
**Recherche du paquet `IronOcr` dans l'interface utilisateur du gestionnaire de paquets NuGet**
Avant d'extraire les données du reçu, vous devez vous assurer que les images du reçu sont de haute qualité afin d'améliorer la précision du processus API OCR du reçu. Voici quelques conseils pour obtenir une bonne image de votre reçu :
Utiliser un document numérisé. Vous pouvez utiliser un scanner haute résolution pour numériser les reçus.
Veillez à ce que le reçu soit bien éclairé et sans ombres.
Redressez les plis sur le reçu, afin qu'aucune information essentielle ne soit cachée.
Veillez à ce que le texte du reçu soit clair et non maculé afin d'améliorer le traitement des reçus.
**Exemple d'image de reçu pour l'extraction de texte**
Une fois IronOCR installé et l'image de votre reçu prête, il est temps d'effectuer le processus d'OCR. Dans votre application .NET, utilisez l'extrait de code suivant :
using IronOcr;
var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
var result = ocr.Read(ocrInput);
Console.WriteLine(result.Text);
}
using IronOcr;
var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
var result = ocr.Read(ocrInput);
Console.WriteLine(result.Text);
}
Imports IronOcr
Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
Dim result = ocr.Read(ocrInput)
Console.WriteLine(result.Text)
End Using
using IronOcr;
using IronOcr;
Imports IronOcr
Cette ligne importe la bibliothèque IronOCR dans votre application .NET, ce qui vous permet d'accéder à ses fonctionnalités.
var ocr = new IronTesseract();
var ocr = new IronTesseract();
Dim ocr = New IronTesseract()
Cette ligne crée une nouvelle instance du Tesseracte de fer
la classe principale responsable des opérations d'OCR dans IronOCR.
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
Ici, une nouvelle instance du OcrInput
est créée, qui représente l'image d'entrée pour le processus d'OCR. Le @"path/to/your/receipt/image.png " doit être remplacé par le chemin d'accès réel de l'image de votre reçu. L'instruction using
garantit que les ressources allouées à l'instance OcrInput
sont correctement libérées une fois l'opération d'OCR terminée.
var result = Ocr.Read(ocrInput);
var result = Ocr.Read(ocrInput);
Dim result = Ocr.Read(ocrInput)
Cette ligne appelle le Lire
de l'instance IronTesseract
, en passant l'objet OcrInput
en paramètre. La méthode Read
traite l'image d'entrée et effectue l'opération OCR, en reconnaissant et en extrayant le texte de l'image. Le processus d'accusé de réception commence alors.
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text)
Enfin, cette ligne affiche le texte extrait sur la console. L'objet result
, qui est une instance de la classe OcrResult
contient le texte reconnu et des informations supplémentaires sur le processus d'OCR. Le texte extrait peut être affiché en accédant à la propriété Text
de l'objet result
.
Sortie des textes extraits
IronOCR propose plusieurs options pour améliorer la précision et les performances de l'OCR. Il s'agit notamment de prétraiter l'image, d'ajuster les paramètres du moteur OCR et de choisir la langue appropriée pour votre reçu.
Vous pouvez améliorer les résultats de l'OCR en appliquant des techniques de prétraitement de l'image telles que :
Désalignement : Corrige toute rotation ou inclinaison de l'image.
Débruitage : Améliorer la lisibilité du texte en supprimant le bruit des images.
Voici un exemple d'application de ces techniques :
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
input.DeNoise();
input.DeSkew();
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
using IronOcr;
var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
input.DeNoise();
input.DeSkew();
var result = ocr.Read(input);
Console.WriteLine(result.Text);
}
Imports IronOcr
Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
input.DeNoise()
input.DeSkew()
Dim result = ocr.Read(input)
Console.WriteLine(result.Text)
End Using
IronOCR prend en charge plus de 125 langues, et le choix de la langue correcte pour votre reçu peut améliorer considérablement les résultats de l'OCR. Pour spécifier la langue, ajoutez la ligne suivante à votre code :
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English
Une fois le processus d'OCR terminé, il est temps d'extraire des informations spécifiques du texte. En fonction de vos besoins, vous pouvez extraire des données telles que
Nom et adresse du magasin.
Date et heure d'achat.
Noms et prix des articles.
Sous-total, taxe et montant total.
Pour ce faire, vous pouvez utiliser des expressions régulières ou des techniques de manipulation de chaînes dans votre application .NET. Par exemple, vous pouvez extraire la date du résultat de l'OCR à l'aide de l'extrait de code suivant :
using System.Text.RegularExpressions;
//Rest of the Code
var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
var DateValue = DateTime.Parse(DateMatch.Value);
Console.WriteLine("Date: " + DateValue);
}
using System.Text.RegularExpressions;
//Rest of the Code
var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
var DateValue = DateTime.Parse(DateMatch.Value);
Console.WriteLine("Date: " + DateValue);
}
Imports System.Text.RegularExpressions
'Rest of the Code
Private DatePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"
Private DateMatch = Regex.Match(Result.Text, DatePattern)
If DateMatch.Success Then
Dim DateValue = DateTime.Parse(DateMatch.Value)
Console.WriteLine("Date: " & DateValue)
End If
Vous pouvez créer des modèles similaires pour d'autres éléments d'information que vous devez extraire du reçu.
Maintenant que vous avez extrait les informations pertinentes de votre reçu, vous pouvez les stocker dans une base de données, les analyser ou les exporter vers d'autres formats de fichiers tels que CSV, JSON ou Excel.
En conclusion, l'OCR de reçus à l'aide d'IronOCR est une solution innovante et efficace pour la numérisation et la gestion de vos données financières ; avec IronOCR, vous pouvez remplacer la saisie manuelle des données. En suivant ce guide étape par étape, vous pouvez exploiter la puissance d'IronOCR pour améliorer votre suivi des dépenses et l'analyse des données. Le plus beau, c'est qu'IronOCR offre une essai gratuitvous pouvez ainsi découvrir ses capacités sans aucun engagement de votre part.
Après la période d'essai, si vous décidez de continuer à utiliser IronOCR, la licence commence à partir de $749, ce qui constitue un moyen rentable d'exploiter les avantages de la technologie OCR dans vos applications.
9 produits de l'API .NET pour vos documents de bureau