Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
OCR - La reconnaissance optique de caractères permet de détecter du texte dans des fichiers numériques. Les documents papier numérisés sont toujours enregistrés sous forme de fichiers image par l'ordinateur. Les données contenues dans ces fichiers images ne peuvent pas être recherchées, modifiées ou enregistrées au format texte à l'aide d'un éditeur de texte normal ou même d'une application de traitement de texte. Le traitement OCR permet de convertir ces images en texte lisible par la machine pour un traitement ultérieur par les utilisateurs.
À l'ère moderne, les documents partagés sur l'internet sont au format numérique et le plus souvent sous la forme de PDF ou d'images. Il existe de nombreuses ressources en ligne qui convertissent l'image en texte. Cependant, la plupart des entreprises ont besoin de cette fonctionnalité dans leurs applications logicielles. C'est pourquoi il existe de nombreuses bibliothèques qui fournissent des solutions d'OCR à intégrer dans des applications logicielles.
Dans cet article, nous allons comparer deux des technologies OCR les plus populaires pour C# :
IronOCR for .NET est une bibliothèque C# permettant de numériser, de rechercher et de lire des images et des PDF. Il prend une image ou un fichier PDF en entrée et utilise le dernier moteur d'OCR Tesseract 5 custom build .NET pour produire du texte, des données structurées ou des documents PDF consultables. Son Tesseract est disponible dans plus de 125 langues ainsi qu'un support multiplateforme dans .NET Core, Standard, de la 2.0 jusqu'à la 7.
IronOCR est une API conviviale qui permet aux développeurs C# de convertir automatiquement des images en texte, en utilisant simplement la classe IronTesseract
. Il privilégie la rapidité, la précision et la facilité d'utilisation. Il aide également l'API de vision par ordinateur à trouver du texte à l'aide d'un ensemble de modèles entraînés.
Une autre caractéristique puissante d'IronOCR est qu'il peut scanner les codes-barres et les codes QR de tous les fichiers d'image et lire leur texte. D'autres caractéristiques importantes de l'IronOCR sont énumérées ci-dessous.
System.Drawing
, les flux et les documents PDF(dPI cible optimisé)SDK Iris OCR est une boîte à outils logicielle modulaire qui permet à vos applications de convertir des textes images en fichiers éditables et de fournir d'autres services de reconnaissance de texte. Il s'agit de l'OCR professionnel le plus rapide, avec des performances et une précision élevées. Avec la technologie de reconnaissance de l'iris, vous bénéficiez des techniques les plus avancées en matière de reconnaissance optique de caractères, ce qui inclut la numérisation de pointe, la classification des documents basée sur l'IA, l'intégrité des données et l'extraction des données.
Iris OCR est un SDK riche en fonctionnalités qui fournit également de puissants outils de nettoyage d'image pour l'amélioration de l'image. Il peut être facilement intégré aux applications logicielles C++, C#, J# et VB.NET. IrisOCR fournit une assistance à long terme et est conçu pour être utilisé sur plusieurs plates-formes. Il prend également en charge les applications OEM et SaaS. Iris OCR aide les entreprises en leur proposant une solution globale à des prix flexibles.
Dans ce tutoriel, nous allons utiliser la dernière version de Visual Studio 2022. Je suppose donc que vous l'avez déjà téléchargé et installé pour C#. Si ce n'est pas le cas, vous pouvez le télécharger à partir du siteSite web de Visual Studio.
Nous devons maintenant créer un projet de console pour commencer à utiliser les deux bibliothèques. Suivez les étapes pour créer un projet :
Cliquez sur Créer un nouveau projet.
Sélectionnez l'application console C# parmi les options proposées et cliquez sur Suivant
Configurez votre nouveau projet avec un nom et un emplacement. Par exemple, "OCRProject".
Pour plus d'informations, sélectionnez le Framework .NET 6.0 car il s'agit de la version la plus stable.
Il existe plusieurs façons d'installer la bibliothèque IronOCR.
NuGet est le gestionnaire de paquets qui permet de télécharger et d'installer les dépendances dans votre projet. Ses paquets contiennent du code compilé(DLL) et le fichier manifeste. Accédez-y en utilisant la méthode suivante :
Cliquez sur Gérer les paquets NuGet pour les solutions
Cliquez sur Gérer les paquets NuGet
La fenêtre du gestionnaire de paquets NuGet s'ouvre alors. Recherchez IronOCR et cliquez sur Installer.
Il peut être téléchargé directement depuis le site officiel de NuGet.
Cliquez sur le lien : "".
Cliquez sur l'option de téléchargement sur le côté droit de la page.
Ouvrez le paquet téléchargé et l'installation commencera.
Il suffit de se rendre sur le site Web d'Iron Software et de naviguer jusqu'à la page Web IronOCR for the .NET. Descendez jusqu'en bas et cliquez sur Download DLL ou Download Windows installer.
Un fichier zip est téléchargé. Extrayez votre fichier de projet ou exécutez le programme d'installation Windows. Suivez les étapes ci-dessous pour l'ajouter à votre projet.
Cliquez avec le bouton droit de la souris sur les dépendances du projet dans Visual Studio à partir de l'explorateur de solutions.
Sélectionnez ensuite l'option Ajouter une référence de projet.
Parcourez l'emplacement du fichier DLL téléchargé.
Accédez à l'onglet Outils dans Visual Studio.
Étendre l'option NuGet Package Manager.
Install-Package IronOcr
Ceci téléchargera et installera automatiquement IronOCR dans votre projet.
Un seul espace de noms est nécessaire et doit être ajouté au fichier de code source où nous devons accéder à ses fonctions.
using IronOcr;
using IronOcr;
Imports IronOcr
Nous sommes maintenant prêts à utiliser IronOCR dans notre projet.
Il existe de nombreuses façons d'utiliser l'Iris OCR. Si vous cherchez une solution pour une petite entreprise ou un bureau, vous pouvez utiliser l'application OCR. Le logiciel peut être téléchargé à partir de ce sitelien.
Si vous recherchez des solutions pour les moyennes et grandes entreprises, vous devez contacter l'équipe d'Iris pour obtenir un devis en fonction de vos besoins. Les SDK et autres documents ne sont disponibles que pour les clients enregistrés. Pour utiliser le SDK dans un environnement de développement, vous devez demander l'accès à l'aide du formulaire suivantformulaire.
Nous allons utiliser le logiciel d'OCR Iris 17 à des fins de comparaison. Il fournit toutes les fonctionnalités à un niveau de base et peut être utilisé en comparaison avec IronOCR. Les étapes suivantes vous aideront à télécharger et à installer le logiciel Iris OCR :
Une fois le logiciel téléchargé, double-cliquez pour ouvrir l'assistant d'installation.
Cliquez sur Suivant et choisissez le mode d'installation.
Sélectionnez ensuite les langues dans lesquelles vous souhaitez lire le texte
Cliquez sur suivant et installez Iris OCR
Le logiciel commence alors à s'installer. Après l'installation, cliquez sur Terminer et ouvrez le logiciel Iris OCR.
Tout est fait! Passons maintenant à la comparaison elle-même.
La lecture de données à partir d'images est une tâche assez fastidieuse. La résolution et la qualité des images jouent un rôle important lors de l'extraction du contenu. Les deux bibliothèques offrent une fonctionnalité de reconnaissance optique de caractères pour extraire le texte des images.
IronOCR permet aux développeurs de lire très facilement le contenu d'un fichier image grâce à sa puissante classe IronTessaract
. Nous utiliserons ici une image PNG pourlire le texte d'un fichier image et le code est le suivant :
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/employmentapp.png");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/employmentapp.png");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
Dim OCR = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/employmentapp.png")
Dim Result = OCR.Read(Input)
Console.WriteLine(Result.Text)
End Using
La sortie d'IronOCR correspond à l'image originale qui lui a été donnée. Le code est propre et facile à comprendre sans aucune technicité.
Le logiciel Iris OCR permet de numériser tous vos documents papier et de les utiliser pour la reconnaissance de texte. L'extraction de texte est très simple grâce à la technologie Iris OCR. Sélectionnez un fichier image à partir de l'option "A partir du fichier" dans l'onglet du menu Accueil. La même image est utilisée pour tester et comparer les résultats des deux logiciels.
Vous pouvez appliquer une correction d'image à l'image téléchargée. Dans l'onglet du fichier de sortie, vous pouvez choisir n'importe quel format de sortie. Il propose plusieurs formats de sortie tels que Word, Excel, PDF, fichiers texte, etc. Il suffit d'enregistrer le fichier dans le format de votre choix et de l'ouvrir pour visualiser le texte extrait.
Vous pouvez constater qu'il y a une nette différence entre les résultats des deux logiciels. IronOCR a extrait le texte exact de l'image ainsi que sa mise en forme. En revanche, l'OCR d'Iris a préservé le formatage, mais le nom complet et le numéro de téléphone ont été altérés.
IronOCR offre une fonction unique et utile lors de la lecture d'images : il peut lire les codes-barres et les codes QR. Il peut détecter les codes-barres et afficher leur valeur en toute simplicité.
Pour ce faire, définissez la configuration de lecture des codes-barres sur true (vrai), puis parcourez chaque code-barres dans les résultats de l'OCR. Le code de lecture des codes-barres est donné ci-dessous :
var OCR = new IronTesseract();
OCR.Configuration.ReadBarCodes = true;
using (var input = new OcrInput()){
input.AddImage("test-files/Barcode.png");
var Result = OCR.Read(input);
foreach (var Barcode in Result.Barcodes){
Console.WriteLine(Barcode.Value);
}
}
var OCR = new IronTesseract();
OCR.Configuration.ReadBarCodes = true;
using (var input = new OcrInput()){
input.AddImage("test-files/Barcode.png");
var Result = OCR.Read(input);
foreach (var Barcode in Result.Barcodes){
Console.WriteLine(Barcode.Value);
}
}
Dim OCR = New IronTesseract()
OCR.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("test-files/Barcode.png")
Dim Result = OCR.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
Next Barcode
End Using
Les trois codes-barres de l'image d'entrée sont lus avec succès et leur texte caché est affiché.
Iris OCR permet également d'extraire les données des codes-barres à partir d'images ou de fichiers PDF. Cependant, pour les codes-barres, nous devons sélectionner manuellement la zone du code-barres à détecter. Passez à l'onglet des zones et sélectionnez le code-barres à reconnaître.
Cliquez avec le bouton droit de la souris sur la région sélectionnée et copiez-la en tant que données, puis enregistrez-la dans un fichier de traitement de texte pour visualiser les données.
Dans ce cas, le logiciel Iris OCR n'est pas en mesure de détecter le texte caché derrière les codes-barres présentés dans l'image.
Lire des fichiers PDF est aussi facile que de lire des fichiers images dans IronOCR. Il suffit de remplacer la méthode AddImage
par AddPDF
dans le code de lecture des images. Le code est le suivant :
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddPdf("test-files/example.pdf");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
var OCR = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddPdf("test-files/example.pdf");
var Result = OCR.Read(Input);
Console.WriteLine(Result.Text);
}
Dim OCR = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("test-files/example.pdf")
Dim Result = OCR.Read(Input)
Console.WriteLine(Result.Text)
End Using
Le texte extrait est formaté de la même manière que le fichier PDF.
La lecture des fichiers PDF est également très facile avec le logiciel Iris. Il prend en charge tous les formats numériques, dont le PDF. Vous pouvez également créer des formats consultables à l'aide du logiciel Iris OCR. Le PDF est un document papier et chaque page est traitée comme un fichier image distinct. Ouvrez les documents papier à l'aide de l'option À partir d'un fichier. Sélectionnez la plage de pages dont vous souhaitez extraire le texte et enregistrez-le dans le format modifiable de votre choix parmi les options proposées.
IronOCR est gratuit à des fins de développement, mais il doit faire l'objet d'une licence pour une utilisation commerciale. Il propose également une version d'essai gratuite pour tester tout son potentiel en fonction de vos besoins. La version allégée est proposée à partir de $749 avec une garantie de remboursement de 30 jours. IronOCR offre un an d'assistance et de mises à jour gratuites, puis 399 $ par an. Toutes les licences sont perpétuelles, ce qui signifie qu'elles ne sont achetées qu'une seule fois et qu'il n'y a pas de frais cachés. Vous pouvez également choisir une couverture de redistribution libre de droits pour les produits SaaS et OEM pour un achat unique de 1999 $. Pour plus d'informations sur les paquets de licences et les plans tarifaires, veuillez consulter le site suivantici.
Iris est une solution OCR avec une version gratuite de 10 jours disponible à l'essai. La version pro est disponible à partir de 99 $ et la version coopérative à partir de 199 $. Pour utiliser son SDK en mode production, il est nécessaire d'obtenir un devis auprès de leur représentant commercial. Si vous souhaitez obtenir une licence pour le développement de C# ou d'un autre langage, demandez un devis àici. Pour plus d'informations et une comparaison entre les versions pro et cooperate, voirici.
IronOCR fournit aux développeurs C# l'API Tesseract la plus avancée que nous connaissons, sur n'importe quelle plateforme. IronOCR peut être déployé sur Windows, Linux, Mac, Azure, AWS et Lambda, et prend en charge les projets .NET Framework ainsi que .NET Standard et .NET Core. Nous pouvons également lire les codes-barres dans les scans OCR, et même exporter notre OCR sous forme de HTML et de PDF consultables.
Le logiciel Iris OCR est conçu avec des capacités d'intelligence artificielle et est compatible avec Windows et Mac. Son SDK est disponible pour de nombreux langages de programmation. Iris Pro est livré avec les capacités du SDK Iris OCR pour Windows et Mac sous la forme d'une application GUI. Vous pouvez lire du texte à partir d'images et de fichiers PDF et les convertir dans d'autres formats. Vous pouvez également personnaliser tous vos documents papier à l'aide du logiciel Iris en quelques clics.
Les licences IronOCR sont basées sur les développeurs, ce qui signifie que vous devez toujours acheter une licence en fonction du nombre de développeurs qui utiliseront le produit. Les licences de développement d'Iris OCR ne sont pas publiées sur le site web d'Iris. Vous devez demander un devis pour obtenir des informations sur les licences. De plus, la licence IronOCR est un achat unique, et elle peut être utilisée pendant toute la durée de vie du produit.
Dans l'ensemble, les deux logiciels offrent presque toutes les fonctionnalités d'OCR avec la technologie de l'IA, mais IronOCR a un léger avantage sur Iris OCR. En termes de vitesse, de précision et de performances globales, IronOCR est meilleur dans un environnement de production. Il suffit de quelques lignes de code pour créer une application de reconnaissance de texte de haut niveau. La documentation de l'API est également disponible 24 heures sur 24, 7 jours sur 7, ce qui fait que les développeurs adorent cette bibliothèque et en font le premier choix pour les solutions d'OCR. Vous pouvez tester l'ensemble de ses fonctionnalités à l'aide d'unessai gratuit.
Aujourd'hui, vous pouvez acheter 5 produits en fer au prix de 2. Pour plus d'informations, consultez le site suivantlien.
Télécharger IronOCR à partir deici et l'essayer.
9 produits de l'API .NET pour vos documents de bureau