Passer au contenu du pied de page
UTILISATION D'IRONOCR

Comment lire les documents d'identité en utilisant l'OCR en C#

La technologie de reconnaissance optique de caractères (OCR) est devenue un outil précieux pour automatiser l'extraction de texte à partir d'images, permettant une récupération et une analyse efficaces des données et évitant les erreurs humaines. Cette technologie permet de lire les permis de conduire, les passeports, les documents officiels des institutions, les cartes d'identité, les titres de séjour et les documents de voyage de plusieurs langues et de différents pays, en précisant la date d'expiration, la nationalité, la date de naissance, etc. Toutes les données extraites peuvent ensuite être intégrées à des logiciels d'apprentissage automatique et d'intelligence artificielle.

Dans cet article, nous allons explorer comment tirer parti d'IronOCR , une puissante bibliothèque OCR en C# d' Iron Software , pour lire et extraire des informations à partir de documents d'identité. IronOCR offre une solution OCR simple et flexible sous forme d'API pour les tâches OCR, ce qui en fait un excellent choix pour les développeurs souhaitant intégrer des fonctionnalités logicielles OCR dans leurs applications.

IronOCR permet aux ordinateurs de reconnaître et d'extraire du texte à partir d'images, de documents existants ou de toute autre représentation visuelle de texte. L'extraction des données implique une série de processus complexes qui imitent la façon dont les humains perçoivent et interprètent visuellement un texte. Ce processus comprend le prétraitement de l'image, la détection de texte, la segmentation des caractères, l'extraction de caractéristiques, la reconnaissance des caractères et le post-traitement pour corriger les erreurs.

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C

  1. Créez un nouveau projet C# dans Visual Studio
  2. Installez la bibliothèque IronOCR .NET et ajoutez-la à votre projet.
  3. Lire les images des documents d'identité à l'aide de la bibliothèque IronOCR.
  4. Lire les documents d'identité à partir des fichiers PDF.

IronOCR, conçu et maintenu par Iron Software, est une bibliothèque puissante destinée aux ingénieurs logiciels C#, facilitant la reconnaissance optique de caractères (OCR), la numérisation de codes-barres et l'extraction de texte au sein des projets .NET.

Principales caractéristiques d'IronOCR

Polyvalence de lecture de texte

Capable de lire des données pertinentes provenant de différents formats, notamment des images (JPEG, PNG, GIFF, TIFF, BMP), des flux et des PDF.

Amélioration d'image

Corrige les numérisations et les photos de faible qualité grâce à une série de filtres tels que le redressement, la réduction du bruit, la binarisation, l'amélioration de la résolution, la dilatation, et bien plus encore.

Reconnaissance des codes-barres

Prend en charge la lecture des codes-barres de nombreux formats, couvrant plus de 20 types de codes-barres, avec la reconnaissance supplémentaire des codes QR.

Intégration OCR de Tesseract

Utilise la dernière version de Tesseract OCR, optimisée pour une extraction de texte optimale à partir d'images.

Options de sortie flexibles

Permet l'exportation de fichiers PDF consultables, de contenu HTML et de texte à partir de fichiers image, offrant une grande flexibilité dans la gestion des informations extraites.

Passons maintenant au développement d'une application de démonstration qui utilise IronOCR pour lire les documents d'identité.

Prérequis

  1. Visual Studio : assurez-vous d'avoir installé Visual Studio ou tout autre environnement de développement C#.
  2. Gestionnaire de paquets NuGet : Assurez-vous de pouvoir utiliser NuGet pour gérer les paquets dans votre projet.

Étape 1 : Créer un nouveau projet C# dans Visual Studio

Commencez par créer une nouvelle application console C# dans Visual Studio, ou bien utilisez un projet existant. Sélectionnez " Ajouter un nouveau projet " dans le menu, puis sélectionnez " Application console " parmi les modèles ci-dessous.

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C# : Figure 1

Veuillez indiquer le nom et l'emplacement du projet dans les fenêtres ci-dessous.

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C# : Figure 2

Sélectionnez la version .NET requise.

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C# : Figure 3

Cliquez sur le bouton Créer pour créer le nouveau projet.

Étape 2 : Installez la bibliothèque IronOCR et ajoutez-la à votre projet.

IronOCR se trouve dans le gestionnaire de packages NuGet et peut être installé à l'aide de la console du gestionnaire de packages avec la commande suivante :

Install-Package IronOcr

IronOCR peut également être installé à l'aide de Visual Studio. Ouvrez le gestionnaire de packages NuGet, recherchez IronOCR comme ci-dessous, puis cliquez sur Installer.

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C# : Figure 5

Une fois installée, l'application est prête à utiliser IronOCR pour lire tout document d'identité afin d'en extraire des données et de vérifier l'identité, réduisant ainsi le travail de saisie manuelle des données.

Étape 3 : Lire les images des documents d'identité à l'aide de la bibliothèque IronOCR

L'utilisation de la reconnaissance optique de caractères (OCR) pour le traitement des documents d'identité implique de nombreuses étapes, détaillées ci-dessous.

Prétraitement d'images

Le traitement des documents d'identité par OCR commence par l'acquisition d'une image contenant du texte. Cette image peut être une copie numérisée d'un document d'identité, une photographie d'une carte d'identité ou toute autre représentation visuelle d'un texte. Les étapes de prétraitement des cartes d'identité peuvent inclure le redimensionnement, la réduction du bruit et l'amélioration afin d'améliorer la qualité et la netteté de l'image.

Détection de texte

Les algorithmes OCR doivent localiser les zones de données spécifiques au sein de l'image où le texte est présent. Cette étape consiste à identifier les zones de texte ou les cadres de délimitation.

Segmentation des caractères

Une fois les zones de texte ou les champs de données identifiés, l'image est analysée plus en détail afin de segmenter les caractères individuels. Cette étape est cruciale pour les langues qui utilisent des caractères distincts, comme l'anglais ou le chinois.

Extraction de caractéristiques

Les algorithmes OCR analysent les caractères segmentés pour extraire des caractéristiques permettant de différencier les caractères. Ces caractéristiques peuvent inclure les motifs de traits, la forme et les relations spatiales entre les éléments.

Reconnaissance des caractères

À partir des caractéristiques extraites, les algorithmes OCR classent chaque caractère segmenté et lui attribuent une représentation textuelle correspondante. Les modèles d'apprentissage automatique, tels que les réseaux neuronaux, sont souvent utilisés à cette étape.

Post-traitement

Les caractères reconnus peuvent faire l'objet d'un post-traitement pour corriger les erreurs ou améliorer la précision. Cette étape peut impliquer des corrections basées sur un dictionnaire, une analyse contextuelle ou une modélisation du langage.

La bibliothèque IronOCR prend en charge toutes les étapes ci-dessus et nous permet d'effectuer une reconnaissance optique de caractères (OCR) en utilisant seulement quelques lignes de code, ce qui nous épargne des tâches fastidieuses et chronophages.

using IronOcr;

class Program
{
    public static void Main()
    {
        // Configure IronTesseract with language and other settings
        var ocrTesseract = new IronTesseract()
        {
            Language = OcrLanguage.EnglishBest,
            Configuration = new TesseractConfiguration()
            {
                ReadBarCodes = false, // Disable reading of barcodes
                BlackListCharacters = "`ë|^", // Blacklist specific characters
                PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd, // Set page segmentation mode
            }
        };

        // Define the OCR input image
        using var ocrInput = new OcrInput("id1.png");

        // Perform OCR on the input image
        var ocrResult = ocrTesseract.Read(ocrInput);

        // Display the extracted text
        Console.WriteLine(ocrResult.Text);
    }
}
using IronOcr;

class Program
{
    public static void Main()
    {
        // Configure IronTesseract with language and other settings
        var ocrTesseract = new IronTesseract()
        {
            Language = OcrLanguage.EnglishBest,
            Configuration = new TesseractConfiguration()
            {
                ReadBarCodes = false, // Disable reading of barcodes
                BlackListCharacters = "`ë|^", // Blacklist specific characters
                PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd, // Set page segmentation mode
            }
        };

        // Define the OCR input image
        using var ocrInput = new OcrInput("id1.png");

        // Perform OCR on the input image
        var ocrResult = ocrTesseract.Read(ocrInput);

        // Display the extracted text
        Console.WriteLine(ocrResult.Text);
    }
}
Imports IronOcr

Friend Class Program
	Public Shared Sub Main()
		' Configure IronTesseract with language and other settings
		Dim ocrTesseract = New IronTesseract() With {
			.Language = OcrLanguage.EnglishBest,
			.Configuration = New TesseractConfiguration() With {
				.ReadBarCodes = False,
				.BlackListCharacters = "`ë|^",
				.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
			}
		}

		' Define the OCR input image
		Dim ocrInput As New OcrInput("id1.png")

		' Perform OCR on the input image
		Dim ocrResult = ocrTesseract.Read(ocrInput)

		' Display the extracted text
		Console.WriteLine(ocrResult.Text)
	End Sub
End Class
$vbLabelText   $csharpLabel

Image d'entrée

Vous trouverez ci-dessous un exemple d'image utilisée comme entrée pour le programme.

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C# : Figure 6

Sortie

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C# : Figure 7

Explication du code

Le code ci-dessus utilise la bibliothèque IronOCR pour lire tous les champs de texte du document d'identité. Nous utilisons la classe IronTesseract de la bibliothèque IronOCR et la configurons pour utiliser la langue anglaise et certains caractères interdits. Ensuite, nous déclarons l'entrée OCR à l'aide de la classe OcrInput et lisons le texte à partir de l'image. Les champs de texte extraits sont visibles dans la sortie de la console.

Étape 4 : Lire les documents d'identité à partir de fichiers PDF.

Nous pouvons également lire des documents PDF. Pour cela, nous pouvons utiliser la bibliothèque IronPDF d'Iron Software. Commencez par installer la bibliothèque comme suit :

Install-Package IronOcr
using IronOcr;
using IronPdf;

class Program
{
    public static void Main()
    {
        // Load the PDF document
        var pdfReader = new PdfDocument("id1.pdf");

        // Initialize IronTesseract for OCR
        var ocrTesseract = new IronTesseract();

        // Create OCR input from the PDF stream
        using var ocrInput = new OcrInput();
        ocrInput.AddPdf(pdfReader.Stream);

        // Perform OCR on the PDF input
        var ocrResult = ocrTesseract.Read(ocrInput);

        // Display the extracted text
        Console.WriteLine(ocrResult.Text);
    }
}
using IronOcr;
using IronPdf;

class Program
{
    public static void Main()
    {
        // Load the PDF document
        var pdfReader = new PdfDocument("id1.pdf");

        // Initialize IronTesseract for OCR
        var ocrTesseract = new IronTesseract();

        // Create OCR input from the PDF stream
        using var ocrInput = new OcrInput();
        ocrInput.AddPdf(pdfReader.Stream);

        // Perform OCR on the PDF input
        var ocrResult = ocrTesseract.Read(ocrInput);

        // Display the extracted text
        Console.WriteLine(ocrResult.Text);
    }
}
Imports IronOcr
Imports IronPdf

Friend Class Program
	Public Shared Sub Main()
		' Load the PDF document
		Dim pdfReader = New PdfDocument("id1.pdf")

		' Initialize IronTesseract for OCR
		Dim ocrTesseract = New IronTesseract()

		' Create OCR input from the PDF stream
		Dim ocrInput As New OcrInput()
		ocrInput.AddPdf(pdfReader.Stream)

		' Perform OCR on the PDF input
		Dim ocrResult = ocrTesseract.Read(ocrInput)

		' Display the extracted text
		Console.WriteLine(ocrResult.Text)
	End Sub
End Class
$vbLabelText   $csharpLabel

Le code ci-dessus utilise IronPDF pour charger le document id1.pdf , et le PDF est transmis sous forme de flux à OcrInput et ocrTesseract .

Sortie

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C# : Figure 9

Licence (Essai Gratuit Disponible)

Pour utiliser IronOCR, vous aurez besoin d'une clé de licence. Cette clé doit être placée dans le fichier appsettings.json.

{
    "IRONOCR-LICENSE-KEY": "your license key"
}

Veuillez fournir une adresse e-mail utilisateur pour obtenir une licence d'essai.

Comment lire des documents d'identité à l'aide de la reconnaissance optique de caractères (OCR) en C# : Figure 10

Cas d'utilisation

1. Vérification d'identité dans les services financiers :

  • Cas d'utilisation : Les banques et les institutions financières utilisent la reconnaissance optique de caractères (OCR) pour lire les documents d'identité tels que les passeports, les permis de conduire et les cartes d'identité lors de l'intégration des clients et du processus KYC.
  • Avantages : Garantit une vérification d'identité précise et efficace pour la création de comptes, les demandes de prêt et autres transactions financières.

2. Contrôle des frontières et immigration :

  • Cas d'utilisation : Les autorités d'immigration utilisent la technologie OCR pour lire et authentifier les informations des passeports et des visas aux points de contrôle frontaliers.
  • Avantages : Simplifie le processus d'immigration, renforce la sécurité et réduit les erreurs de saisie manuelle des données.

3. Contrôle d'accès et sécurité :

  • Cas d'utilisation : La reconnaissance optique de caractères (OCR) est utilisée dans les systèmes de contrôle d'accès pour lire les informations contenues dans les cartes d'identité, les badges d'employés ou les scans de reconnaissance faciale afin de permettre une entrée sécurisée dans les bâtiments ou les zones restreintes.
  • Avantages : Améliore la sécurité en garantissant que seules les personnes autorisées y aient accès et fournit un registre numérique des entrées.

4. Services de gouvernement électronique :

  • Cas d'utilisation : Les organismes gouvernementaux utilisent la reconnaissance optique de caractères (OCR) pour traiter et vérifier les documents d'identité soumis en ligne pour des services tels que le renouvellement des permis de conduire, les déclarations fiscales et les demandes de permis.
  • Avantages : Améliore l'efficacité, réduit la paperasserie et améliore l'expérience globale des citoyens.

5. Vérification d'identité dans le secteur de la santé :

  • Cas d'utilisation : Les prestataires de soins de santé utilisent la reconnaissance optique de caractères (OCR) pour lire les informations figurant sur les cartes d'identité des patients, les cartes d'assurance et autres documents d'identité afin de tenir des dossiers patients précis.
  • Avantages : Facilite l'identification précise des patients, assure une gestion adéquate des dossiers médicaux et soutient les processus de facturation.

6. Enregistrement automatisé à l'hôtel :

  • Cas d'utilisation : Les hôtels mettent en œuvre la reconnaissance optique de caractères (OCR) pour automatiser les processus d'enregistrement en scannant les documents d'identité des clients, ce qui simplifie le processus d'inscription.
  • Avantages : Améliore l'expérience client, réduit le temps d'enregistrement et minimise les erreurs dans la saisie des informations client.

7. Villes intelligentes et services publics :

  • Cas d'utilisation : La reconnaissance optique de caractères (OCR) est appliquée dans les initiatives de villes intelligentes pour lire les documents d'identité nécessaires à des services tels que l'accès aux transports publics, les abonnements à la bibliothèque et les inscriptions aux événements municipaux.
  • Avantages : Améliore l'efficacité des services publics, facilite un accès fluide et enrichit l'expérience de vie urbaine.

8. Administration de l'éducation :

  • Cas d'utilisation : Les établissements d'enseignement utilisent la reconnaissance optique de caractères (OCR) pour traiter et vérifier les documents d'identité lors des admissions d'étudiants, des examens et de la délivrance des diplômes.
  • Avantages : Garantit l'exactitude des dossiers étudiants, réduit la charge administrative et renforce l'intégrité des processus académiques.

Conclusion

L'intégration de la technologie OCR dans votre application C# à l'aide d'IronOCR vous permet d'extraire efficacement des informations à partir de documents d'identité. Ce guide complet fournit les étapes nécessaires pour configurer votre projet et utiliser IronOCR afin de lire et de traiter les images de documents d'identité. Expérimentez avec les exemples de code pour adapter le processus d'extraction à vos besoins spécifiques, offrant ainsi une solution transparente et automatisée pour la gestion des données des documents d'identité.

Questions Fréquemment Posées

Comment puis-je extraire du texte de documents d'identité en utilisant C#?

En utilisant IronOCR, une bibliothèque OCR spécialisée de Iron Software, vous pouvez extraire du texte de différents documents d'identité tels que des passeports, des cartes d'identité et des permis de conduire. Vous pouvez installer IronOCR via le gestionnaire de packages NuGet dans Visual Studio et utiliser ses méthodes pour lire du texte à partir d'images et de PDFs.

Quels sont les avantages de l'utilisation de l'OCR pour les documents d'identité?

La technologie OCR, telle qu'IronOCR de Iron Software, automatise l'extraction de texte des documents d'identité, réduisant les erreurs humaines et améliorant l'efficacité de la récupération des données. Elle prend en charge plusieurs langues et formats de documents, ce qui la rend idéale pour les applications dans la finance, les soins de santé et le contrôle aux frontières.

Quelles étapes sont impliquées dans la configuration de l'OCR dans un projet C#?

Pour configurer l'OCR dans un projet C#, vous devez créer un nouveau projet dans Visual Studio, installer IronOCR via le gestionnaire de packages NuGet, et utiliser son API pour lire du texte à partir de documents. IronOCR fournit une documentation complète et des exemples pour vous aider à intégrer les capacités OCR.

Comment puis-je améliorer la qualité de l'image pour de meilleurs résultats OCR ?

IronOCR inclut des fonctionnalités telles que la désinclinaison, la débruitage, la binarisation, l'amélioration de la résolution et la dilution pour améliorer la qualité de l'image. Ces filtres améliorent la précision de la reconnaissance de texte à partir d'images de basse qualité, garantissant une extraction de données fiable.

La technologie OCR peut-elle lire des codes-barres sur des documents d'identité?

Oui, IronOCR prend en charge la reconnaissance des codes-barres sur les documents d'identité. Il peut lire plus de 20 types de codes-barres, y compris les codes QR, ce qui est utile pour les applications nécessitant à la fois l'extraction de texte et de données de codes-barres.

Y a-t-il des cas d'utilisation spécifiques pour l'OCR dans la vérification d'identité?

L'OCR est largement utilisé dans la vérification d'identité pour des applications telles que les enregistrements automatisés, le contrôle d'accès et les services gouvernementaux électroniques. IronOCR fournit les outils nécessaires pour extraire et vérifier le texte des documents d'identité, améliorant ainsi la sécurité et simplifiant les processus.

Comment puis-je gérer l'extraction de texte multilingue avec l'OCR?

IronOCR offre un support multilingue, vous permettant d'extraire du texte de documents dans différentes langues. Cette fonctionnalité est particulièrement utile pour les applications internationales où des documents dans différentes langues doivent être traités efficacement.

Existe-t-il une version d'essai disponible pour les bibliothèques OCR?

IronOCR de Iron Software offre une version d'essai gratuite. Vous pouvez obtenir une clé de licence d'essai en fournissant une adresse e-mail, ce qui vous permet d'explorer les fonctionnalités de la bibliothèque avant de vous engager dans un achat.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite