Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Reconnaissance optique de caractères (OCR) est devenue un outil inestimable pour automatiser l'extraction de texte à partir d'images, ce qui permet d'extraire et d'analyser efficacement les données et d'éviter les erreurs humaines. Cette technologie peut être utilisée pour lire les permis de conduire, les passeports, les documents officiels des institutions, les cartes d'identité, les cartes de permis de séjour et les documents de voyage de plusieurs langues et de différents pays afin d'en connaître la date d'expiration exacte, la nationalité, la date de naissance, etc. Toutes les données extraites peuvent ensuite être intégrées dans des logiciels d'apprentissage automatique et d'intelligence artificielle.
Dans cet article, nous allons voir comment tirer parti de la IronOCRune puissante bibliothèque d'OCR en C# de Iron Softwarel'objectif est de lire et d'extraire des informations à partir de documents d'identité. IronOCR fournit une solution d'OCR simple et flexible sous la forme d'API pour les tâches d'OCR, ce qui en fait un excellent choix pour les développeurs qui cherchent à intégrer des capacités logicielles d'OCR dans leurs applications.
IronOCR permet aux ordinateurs de reconnaître et d'extraire du texte à partir d'images, de documents existants scannés ou de toute autre représentation visuelle du texte. Pour extraire des données, il faut une série de processus complexes qui imitent la façon dont les humains perçoivent et interprètent visuellement un texte. Ce processus comprend le prétraitement de l'image, la détection du texte, la segmentation des caractères, l'extraction des caractéristiques, la reconnaissance des caractères et le post-traitement pour corriger les erreurs.
Créer un nouveau projet C# dans Visual Studio
Installer le IronOCR .NET et ajoutez-la à votre projet.
Lire les images du document d'identité à l'aide de la fonction IronOCR bibliothèque.
Lire le document d'identité à partir de PDF.
IronOCRconçue et maintenue par Iron Software, est une bibliothèque puissante pour les ingénieurs logiciels C#, facilitant l'OCR, la lecture de codes-barres et l'extraction de texte dans les projets .NET.
Capable de lire des données pertinentes à partir de différents formats, y compris des images (JPEG, PNG, GIFF, TIFF, BMP), les flux et les PDF.
Corrige les scans et les photos de mauvaise qualité grâce à un ensemble de filtres tels que Deskew, Denoise, Binarize, Enhance Resolution, Dilate, et bien d'autres encore.
Prise en charge de la lecture des codes-barres dans un large éventail de formats, comprenant plus de 20 types de codes-barres, avec en plus la reconnaissance des codes QR.
Utilise la dernière version de Tesseract OCR, finement réglée pour des performances optimales dans l'extraction de texte à partir d'images.
Permet d'exporter des PDF consultables, du HTML et du contenu textuel à partir de fichiers images, offrant ainsi une grande souplesse dans la gestion des informations extraites.
Passons maintenant au développement d'une application de démonstration qui utilise IronOCR pour lire des documents d'identité.
Visual Studio: Assurez-vous d'avoir Visual Studio ou tout autre environnement de développement C#.
Commencez par créer une nouvelle application console C# dans Visual Studio ou utilisez un projet existant. Sélectionnez Ajouter un nouveau projet dans le menu, puis sélectionnez l'application de la console dans les modèles ci-dessous.
Indiquez le nom et l'emplacement du projet dans les fenêtres ci-dessous
Sélectionnez la version .NET requise
Cliquez sur le bouton Créer pour créer le nouveau projet.
IronOCR peuvent être trouvés dans le NuGet et peut être installé à l'invite de commande à l'aide des commandes ci-dessous.
IronOCR peut être installé à l'aide de Visual Studio. Ouvrez le gestionnaire de paquets NuGet et recherchez IronOCR comme ci-dessous et cliquez sur installer
Une fois installée, l'application est prête à utiliser IronOCR de lire n'importe quel document d'identité pour l'extraction de données et la vérification de l'identité, ce qui réduira le travail de saisie manuelle des données.
L'utilisation de l'OCR pour le traitement des documents d'identité comporte de nombreuses étapes, qui sont détaillées ci-dessous.
Le traitement des documents OCR ID commence par l'acquisition d'une image contenant du texte. Cette image peut être un document d'identité scanné, une photographie de carte d'identité ou toute autre représentation visuelle du texte. Les étapes de prétraitement de la carte d'identité peuvent comprendre le redimensionnement, la réduction du bruit et l'amélioration de la qualité et de la clarté de l'image.
Les algorithmes d'OCR doivent localiser les zones de données spécifiques de l'image où se trouve le texte. Cette étape consiste à identifier les régions de texte ou les zones de délimitation.
Une fois les zones de texte ou les champs de données identifiés, l'image est analysée plus en détail afin de segmenter les caractères individuels. Cette étape est cruciale pour les langues qui utilisent des caractères distincts, comme l'anglais ou le chinois.
Les algorithmes d'OCR analysent les caractères segmentés pour en extraire les caractéristiques qui permettent de différencier les différents caractères. Ces caractéristiques peuvent inclure les motifs des traits, la forme et les relations spatiales entre les éléments.
Sur la base des caractéristiques extraites, les algorithmes d'OCR classent chaque caractère segmenté et lui attribuent une représentation textuelle correspondante. Les modèles d'apprentissage automatique, tels que les réseaux neuronaux, sont souvent utilisés à cette étape.
Les caractères reconnus peuvent faire l'objet d'un post-traitement afin de corriger les erreurs ou d'améliorer la précision. Cette étape peut impliquer des corrections basées sur des dictionnaires, une analyse du contexte ou une modélisation de la langue.
IronOCR prend en charge toutes les étapes ci-dessus et nous permet d'effectuer l'OCR en utilisant seulement quelques lignes de code, ce qui permet d'éviter des tâches fastidieuses qui prennent du temps.
using IronOcr;
class Program
{
public static void Main()
{
IronTesseract ocrTesseract = new IronTesseract()
{
Language = OcrLanguage.EnglishBest,
Configuration = new TesseractConfiguration()
{
ReadBarCodes = false,
BlackListCharacters = "`ë
^",
PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
}
};
using var ocrInput = new OcrInput("id1.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
using IronOcr;
class Program
{
public static void Main()
{
IronTesseract ocrTesseract = new IronTesseract()
{
Language = OcrLanguage.EnglishBest,
Configuration = new TesseractConfiguration()
{
ReadBarCodes = false,
BlackListCharacters = "`ë
^",
PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
}
};
using var ocrInput = new OcrInput("id1.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
Imports IronOcr
Friend Class Program
Public Shared Sub Main()
Dim ocrTesseract As New IronTesseract() With {
.Language = OcrLanguage.EnglishBest,
.Configuration = New TesseractConfiguration() With {
.ReadBarCodes = False,
.BlackListCharacters = "`ë ^",
.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
}
}
Dim ocrInput As New OcrInput("id1.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Sub
End Class
Voici un exemple d'image utilisée comme entrée dans le programme
Le code ci-dessus utilise la fonction IronOCR pour lire tous les champs de texte du document d'identification. Nous utilisons la classe IronTesseract de la classe IronOCR et la configurer pour qu'elle utilise la langue anglaise et certains caractères de la liste noire. Nous déclarons ensuite l'entrée OCR à l'aide de la classe OcrInput, puis nous lisons le texte de l'image. Les champs de texte extraits sont visibles dans la sortie de la console.
Nous pouvons également lire des documents PDF. Pour ce faire, nous pouvons utiliser la fonction IronPDF d'IronSoftware. Tout d'abord, installez la bibliothèque comme suit
using IronOcr;
using IronPdf;
class Program
{
public static void Main()
{
var pdfReader = new PdfDocument("id1.pdf");
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.AddPdf(pdfReader.Stream);
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
using IronOcr;
using IronPdf;
class Program
{
public static void Main()
{
var pdfReader = new PdfDocument("id1.pdf");
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.AddPdf(pdfReader.Stream);
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
Imports IronOcr
Imports IronPdf
Friend Class Program
Public Shared Sub Main()
Dim pdfReader = New PdfDocument("id1.pdf")
Dim ocrTesseract = New IronTesseract()
Dim ocrInput As New OcrInput()
ocrInput.AddPdf(pdfReader.Stream)
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Sub
End Class
Le code ci-dessus utilise IronPDF pour charger le document id.PDF et ce PDF est transmis en tant que flux à OcrInput et ocrTesseract.
IronOCR. Cette clé doit être placée dans appsettings.json.
"IRONOCR-LICENSE-KEY": "your license key"
"IRONOCR-LICENSE-KEY": "your license key"
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'"IRONOCR-LICENSE-KEY": "your license key"
Fournir l'adresse e-mail de l'utilisateur pour obtenir une licence d'essai.
1. Vérification de l'identité dans les services financiers:
Cas d'utilisation : Les banques et les institutions financières utilisent l'OCR pour lire les documents d'identité tels que les passeports, les permis de conduire et les cartes d'identité au cours du processus d'accueil des clients et du processus KYC.
Avantages : Assure une vérification précise et efficace de l'identité pour la création de comptes, les demandes de prêt et d'autres transactions financières.
2. Contrôle des frontières et immigration:
Cas d'utilisation : Les services d'immigration utilisent la technologie OCR pour lire et authentifier les informations contenues dans les passeports et les visas aux points de contrôle frontaliers.
Avantages : Rationalisation du processus d'immigration, renforcement de la sécurité et réduction des erreurs de saisie manuelle des données.
3. Contrôle d'accès et sécurité:
Cas d'utilisation : L'OCR est utilisée dans les systèmes de contrôle d'accès pour lire les informations contenues dans les cartes d'identité, les badges des employés ou les scans de reconnaissance faciale afin de sécuriser l'entrée dans les bâtiments ou les zones restreintes.
Avantages : Renforce la sécurité en veillant à ce que seules les personnes autorisées y aient accès et fournit un enregistrement numérique des entrées.
4. Services d'administration en ligne:
Cas d'utilisation : Les agences gouvernementales utilisent l'OCR pour traiter et vérifier les documents d'identité soumis en ligne pour des services tels que les renouvellements de permis de conduire, les déclarations fiscales et les demandes de permis.
Avantages : Amélioration de l'efficacité, réduction de la paperasserie et amélioration de l'expérience globale des citoyens.
5. Vérification de l'identité médicale:
Cas d'utilisation : Les prestataires de soins de santé utilisent l'OCR pour lire les informations contenues dans les cartes d'identité des patients, les cartes d'assurance et d'autres documents d'identité afin d'assurer l'exactitude des dossiers des patients.
Avantages : Facilite l'identification précise des patients, assure une bonne gestion des dossiers médicaux et soutient les processus de facturation.
6. Enregistrement automatisé à l'hôtel:
Cas d'utilisation : Les hôtels mettent en œuvre l'OCR pour automatiser les processus d'enregistrement en scannant les documents d'identité des clients, ce qui rationalise le processus d'enregistrement.
Avantages : Améliore l'expérience des clients, réduit le temps d'enregistrement et minimise les erreurs dans la saisie des informations sur les clients.
7. Villes et services publics intelligents:
Cas d'utilisation : L'OCR est appliquée dans les initiatives de villes intelligentes pour lire les documents d'identité pour des services tels que l'accès aux transports publics, l'adhésion à la bibliothèque et l'inscription aux événements de la ville.
Avantages : Améliore l'efficacité des services publics, facilite l'accès sans rupture et améliore l'expérience de la vie urbaine.
8. Administration de l'éducation:
Cas d'utilisation : Les établissements d'enseignement utilisent l'OCR pour traiter et vérifier les documents d'identité lors de l'admission des étudiants, des examens et de la délivrance des diplômes.
Avantages : Garantit l'exactitude des dossiers des étudiants, réduit la charge administrative et renforce l'intégrité des processus académiques.
Intégrer la technologie OCR dans votre application C# à l'aide de IronOCR vous permet d'extraire efficacement des informations à partir de documents d'identité. Ce guide complet fournit les étapes nécessaires à la mise en place de votre projet et à l'utilisation des outils suivants IronOCR pour lire et traiter les images des documents d'identité. Expérimentez les exemples de code pour adapter le processus d'extraction à vos besoins spécifiques, afin de disposer d'une solution transparente et automatisée pour le traitement des données relatives aux documents d'identité.
9 produits de l'API .NET pour vos documents de bureau