UTILISATION DE L'IRONOCR

Comment créer une solution OCR pour les factures ?

Publié février 18, 2024
Partager:

Introduction

Reconnaissance optique de caractères, ou OCRest une technique qui permet aux ordinateurs d'identifier et d'extraire du texte à partir d'images ou de documents scannés. La conversion de photos contenant du texte en données textuelles lisibles par une machine est l'objectif principal des logiciels d'OCR. De nombreux secteurs peuvent bénéficier du large éventail d'utilisations de cette technologie, qui rationalise la saisie des données, la numérisation des documents et les procédures d'automatisation telles que vos processus de comptabilité fournisseurs. Dans cet article, nous verrons l'utilisation des solutions OCR pour le traitement des factures et comment elles rendent obsolète le traitement manuel des factures.

Comment utiliser la solution OCR pour les factures ?

  1. Installer le IronOCR Bibliothèque C#.

  2. Créer un nouveau projet C# dans Visual Studio

  3. Examinez une bibliothèque C# riche en fonctionnalités permettant d'effectuer une reconnaissance optique de caractères (OCR) à la réception.

  4. En utilisant Tesseract, extraire les données des reçus

  5. Rechercher des données particulières dans le résultat du texte extrait.

  6. Examinez les valeurs du code-barres sur l'image du reçu fourni.

Qu'est-ce que le traitement des factures ?

Les entreprises peuvent transformer des factures numérisées en texte lisible par machine en utilisant le traitement OCR des factures, qui automatise l'extraction de texte et de données à partir des factures. L'efficacité des procédures financières est globalement accrue, la saisie manuelle des données est réduite et le traitement des factures est rationalisé grâce à l'automatisation.

IronOCR

Reconnaissance optique de caractères (OCR) est rendu possible pour les développeurs utilisant le langage de programmation C# par IronOCR**, une bibliothèque .NET. IronOCR, créé par Iron Software, est un outil utile pour les applications qui nécessitent une reconnaissance automatique de texte, car il permet aux utilisateurs d'extraire du texte à partir de photos, de documents scannés et de fichiers PDF. Pour extraire du texte et des données des factures, vous devez intégrer la bibliothèque IronOCR dans votre application .NET pour le traitement automatisé des factures à l'aide d'IronOCR.

IronOCR permet d'éviter les fraudes grâce à l'utilisation d'algorithmes d'IA. Les erreurs, les fraudes et les doubles factures sont ainsi rapidement identifiées. Réduisez les erreurs grâce à l'extraction des données des factures par OCR, afin d'éviter les erreurs causées par la saisie humaine des données. En savoir plus sur le contrôle de l'IronOCR ici.

Les principales caractéristiques d'IronOCR sont les suivantes :

  • Extraction de texte : Le contenu textuel des images, des documents numérisés et des fichiers PDF peut être extrait à l'aide d'IronOCR. Il utilise des algorithmes OCR sophistiqués pour identifier les mots, les caractères et les mises en page des documents fournis.
  • Pour extraire des informations textuelles des photos de factures, utilisez IronOCR. Il s'agit de récupérer des informations sur le fournisseur, les postes, le numéro de la facture, la date et toute autre donnée pertinente.
  • Lecture de codes-barres : IronOCR possède des capacités de lecture de codes-barres à partir d'images en plus de l'OCR, ce qui accroît son adaptabilité aux applications qui nécessitent de traiter à la fois des données textuelles et des codes-barres.
  • Prétraitement de l'image : Le désalignement, la réduction du bruit et la correction du contraste font partie des méthodes de prétraitement d'image prises en charge par IronOCR. En améliorant les images d'entrée, ces procédures de prétraitement contribuent à accroître la précision de l'OCR.
  • Technologie OCR basée sur des zones : En définissant des zones d'OCR, les développeurs peuvent indiquer certaines zones d'une image où l'extraction de texte doit être concentrée. Cette fonction est très utile pour gérer des documents avec des mises en page organisées.
  • Le logiciel OCR scanne et extrait le texte des informations scannées ou photographiées en traitant les images ou les documents acquis. La mise en page, les mots et les caractères du document sont interprétés par le moteur OCR.

    Il est essentiel de se rappeler que la précision des paramètres d'OCR, la complexité des factures et la qualité des photos saisies sont autant d'éléments qui influencent le succès de la solution. En outre, l'utilisation des API d'IronOCR et la compréhension des capacités particulières offertes par la bibliothèque peuvent être des étapes nécessaires du processus d'intégration. Pour obtenir les détails et les recommandations les plus récents, consultez toujours la documentation officielle de l'IronOCR.

Création d'un nouveau projet dans Visual Studio

Naviguez vers le "menu fichier" après avoir démarré le programme Visual Studio. Allez dans "nouveau projet" et choisissez "application console". Dans ce billet, nous allons créer des documents PDF à l'aide d'un programme de console.

Comment créer une solution OCR pour les factures : Figure 1 - Création d'un nouveau projet dans Visual Studio

Dans la zone de texte correspondante, saisissez le nom du projet et choisissez l'emplacement du fichier. Ensuite, comme le montre l'image ci-dessous, cliquez sur le bouton Créer et choisissez le Framework .NET nécessaire.

Comment créer une solution OCR pour les factures : Figure 2 - Configuration des informations sur le projet

Maintenant que l'application a été choisie, le projet Visual Studio va créer sa structure. Si vous avez choisi les versions console, Windows ou web, le programme ouvrira le fichier program.cs, ce qui vous permettra d'ajouter du code et de construire/exécuter l'application.

Pour tester le code, nous pouvons ajouter la bibliothèque après cela.

Installer IronOCR

Il est possible d'installer des paquets directement dans votre solution à l'aide de l'outil de gestion de paquets NuGet de Visual Studio. La capture d'écran ci-dessous permet de visualiser le gestionnaire de paquets NuGet.

Comment créer une solution OCR pour les factures : Figure 3 - Comment accéder au gestionnaire de paquets NuGet via Visual Studio

Il comporte un champ de recherche qui affiche la liste des paquets provenant du site web de NuGet. Comme le montre la capture d'écran ci-dessous, nous devons rechercher l'expression IronOCR dans le gestionnaire de paquets :

Comment créer une solution OCR pour les factures : Figure 4 - Installation d'IronOCR via le gestionnaire de paquets NuGet

Le graphique ci-dessus pourrait nous fournir une liste de termes de recherche pertinents. Nous devons faire la sélection requise pour installer le paquet de solutions.

IronOCR pour extraire des données des factures

IronOCR est une puissante bibliothèque OCR qui peut être utilisée pour extraire des données et lire des données de factures. Avec IronOCR, vous pouvez prendre une photo d'un reçu et l'utiliser pour le convertir en texte lisible par machine, facile à traiter et à analyser, sans compromettre la confidentialité des données. L'OCR des factures permet d'extraire les données des factures au format numérique.

Voici un exemple de la manière dont IronOCR traite les factures des fournisseurs et extrait le texte des factures papier.

using System;
using System.Collections.Generic;
using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
    Input.AddImage(@"invoice.png"); // adding the example invoice to read
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    Console.ReadKey();
}
using System;
using System.Collections.Generic;
using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure            
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())
{
    Input.AddImage(@"invoice.png"); // adding the example invoice to read
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
    Console.ReadKey();
}
Imports System
Imports System.Collections.Generic
Imports IronOcr
Private Ocr = New IronTesseract() ' nothing to configure
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("invoice.png") ' adding the example invoice to read
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
	Console.ReadKey()
End Using
VB   C#

Voici le résultat du code mentionné ci-dessus :

Comment créer une solution d'OCR pour les factures : Figure 5 - Texte produit à partir du code précédent

L'exemple ci-dessus montre qu'IronOCR nous a aidés à effectuer l'OCR et à afficher les données extraites dans la console.

Lire les codes-barres sur les factures

Outre le texte, les codes-barres figurant sur les reçus peuvent être scannés à l'aide d'IronOCR. Pour utiliser IronOCR afin de scanner des codes-barres sur des reçus, vous devez utiliser la fonction ReadBarCodes avec la classe BarcodeReader.

Voici une illustration de l'utilisation d'IronOCR pour décoder l'image d'un reçu en vue de la lecture d'un code-barres.

var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput("invoice.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
using (var ocrInput = new OcrInput("invoice.png"))
{
    var ocrResult = ocrTesseract.Read(ocrInput);
    foreach (var barcode in ocrResult.Barcodes)
    {
        Console.WriteLine(barcode.Value);
    }
}
Dim ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
Using ocrInput As New OcrInput("invoice.png")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	For Each barcode In ocrResult.Barcodes
		Console.WriteLine(barcode.Value)
	Next barcode
End Using
VB   C#

Comment créer une solution OCR pour les factures : Figure 6 - Code-barres saisi

Bien qu'IronOCR offre de solides capacités d'OCR, il est essentiel de se rappeler que l'ensemble du flux de traitement des factures peut également nécessiter d'autres éléments tels que la validation des données, la logique commerciale et la connectivité des systèmes financiers. Il se peut que vous deviez combiner IronOCR avec des outils ou des éléments supplémentaires pour obtenir une solution complète de traitement des factures, en fonction de votre cas d'utilisation particulier.

Résultat :

Comment créer une solution OCR pour les factures : Figure 7 - Le résultat de la lecture du code-barres de l'exemple à l'aide du code ci-dessus

Pour en savoir plus sur la démo en ligne de l'IronOCR, consultez le site suivant ici.

Conclusion

En tant que système de reconnaissance optique de caractères fort et adaptable (OCR) pour les développeurs C#, IronOCR se distingue, en conclusion. L'extraction de texte à partir de photos, de documents numérisés et de fichiers PDF est rendue possible et simple grâce à cette collection complète de fonctions offertes par la bibliothèque .NET d'Iron Software.

Enfin, IronOCR est une solution d'OCR remarquable qui offre une intégration, une flexibilité et une précision exceptionnelles. En raison de sa précision inégalée, de ses algorithmes avancés et de sa capacité à identifier un large éventail de formats de documents, y compris manuscrits, IronOCR est la meilleure solution d'OCR actuellement sur le marché et elle fournit de meilleurs documents avec des exemples de code qui permettent aux débutants d'apprendre rapidement et facilement.

L'édition de développement économique d'IronOCR est accessible, et l'achat de l'ensemble IronOCR donne droit à une licence à vie. L'offre globale d'IronOCR commence à $749, un coût unique pour de nombreux systèmes, ce qui lui confère une valeur exceptionnelle. Elle offre une assistance technique en ligne 24 heures sur 24 et 7 jours sur 7 aux utilisateurs de licences IronOCR. Voir l'IronOCR site web pour plus d'informations sur les redevances.

< PRÉCÉDENT
Comment créer un scanner de reçus OCR en C#
SUIVANT >
Automatisation de l'OCR (Tutoriel sur l'OCR des plaques d'immatriculation en C#)