Cet article compare deux bibliothèques logicielles qui utilisent la reconnaissance optique de caractères(OCR)pour automatiser la détection et l'extraction de texte imprimé à partir d'images et de documents numérisés. Tout d'abord, nous examinerons les caractéristiques des deux bibliothèques. Ensuite, nous examinerons et comparerons leurs capacités de reconnaissance et d'extraction de texte à l'aide d'un exemple de code source produit avec les deux bibliothèques. Enfin, nous comparerons les licences et les prix des bibliothèques.
Les bibliothèques que nous allons comparer dans cet article sont les suivantes :
IronOCR
Syncfusion Essential PDF
1. Syncfusion OCR
La bibliothèque Essential PDF de Syncfusion intègre une fonctionnalité OCR qui permet le traitement image-texte des images numérisées dans les documents PDF.
Le processeur OCR de Syncfusion peut fonctionner avec les versions 3 de Tesseract(3.02 et 3.05) et 4. La bibliothèque peut être incluse dans les applications .NET Core et ASP.NET.
Les caractéristiques de la fonctionnalité OCR de SyncFusion Essential PDF comprennent:
**Effectuer des tâches d'OCR sur des documents PDF OCRProcessor peut être utilisée pour effectuer une reconnaissance optique des caractères (OCR) sur les fichiers PDF. Il est basé sur le processeur de données Tesseract, connu pour être l'un des meilleurs processeurs OCR au monde.
**Les utilisateurs peuvent effectuer des tâches d'OCR sur des parties de documents PDF.
**Les utilisateurs peuvent extraire des données textuelles des images pour les importer dans d'autres applications.
**Le moteur Google Tesseract est un moteur multilingue(Syncfusion par extension) prend actuellement en charge plus de 60 langues et en expérimente de nombreuses autres.
**En exploitant le moteur open source Tesseract de Google, Syncfusion Essential PDF atteint une très bonne précision de texte, réalisant l'OCR en un temps raisonnable.
2. IronOCR
IronOCR est une bibliothèque logicielle C# qui permet aux développeurs de la plate-forme .NET de reconnaître et de lire du texte à partir d'images et de documents PDF. Il s'agit d'une bibliothèque d'OCR exclusivement .NET qui utilise le puissant moteur Tesseract. Les versions 3 à 5 de Tesseract fonctionnent dès le départ sur Windows, macOS, Linux, Azure, AWS, Lambda, Mono et Xamarin Mac.
IronOCR couvre plus de langues que tous les moteurs d'OCR disponibles, en prenant en charge 125 langues,(seul l'anglais est installé par défaut).
les développeurs .NET ont un contrôle total sur leurs documents et peuvent les modifier comme bon leur semble.
2.1. Caractéristiques de l'IronOCR
IronOCR offre une combinaison unique de capacités et de fonctions permettant d'intégrer, de signer, d'exporter, de lire des visuels et d'extraire des détails de photos, indépendamment du bagage technique de l'utilisateur ou de la sophistication du matériel.
2.1.1. Précision
Le SDK IronOCR surpasse les autres bibliothèques OCR en termes de précision, avec un taux de 99,8 %.
2.1.2. Correction des scans et des images de mauvaise qualité
La classe IronOCR offre un contrôle étendu aux développeurs C#. Ils donnent à leurs développeurs l'OCR(images et PDF en texte) et des performances optimisées dans chaque cas spécifique.
IronOCR comprend des options de configuration qui permettent à la bibliothèque de traiter des images dont la qualité n'est pas idéale. Voici quelques-unes des configurations disponibles : Nettoyer le bruit de fond, Améliorer le contraste, Améliorer la résolution, Langue, Stratégie, Tourner et redresser, Espace couleur, Détecter le texte blanc sur fond sombre, et Type d'image d'entrée.
2.1.3. Les langues
IronOCR prend en charge plus de 125 langues internationales.
2.1.4. Extraction de texte par OCR
Le Tesseract d'Iron peut lire plusieurs formats d'images ainsi que des fichiers PDF. Cette fonctionnalité n'est pas disponible avec les moteurs Tesseract standards et gratuits. Si vos scans sont de mauvaise qualité, l'entrée OCR vous permet de fixer automatiquement les attributs nécessaires.
2.1.5. Filtres d'optimisation d'image
La classe OCRInput permet aux programmeurs C# de contrôler finement les entrées. Les images sont ensuite prétraitées par les développeurs afin de gagner en rapidité et en précision. Il n'est donc plus nécessaire d'utiliser les scripts Photoshop Batch ou ImageMagick pour préparer les photographies avant le traitement OCR.
2.1.6. Région OCR d'une image
IronOCR permet à ses utilisateurs finaux d'effectuer l'OCR sur des zones spécifiques d'une image.
2.1.7. Classe OCRResult
IronOCR renvoie un objet de résultat avancé pour chaque page qu'il scanne à l'aide de Tesseract 3,4 ou 5. Cet objet contient des données de localisation, des images, du texte, une confiance statistique, des choix de symboles alternatifs, des noms de polices, des décorations de tailles de polices, des graisses de polices et une position pour chacun des éléments suivants :
Pages
Paragraphes
Lignes de texte
Mots
Personnages individuels
Codes à barres
2.1.8. Plusieurs langues dans un même document
IronOCR permet aux développeurs d'utiliser plusieurs langues dans un seul document. Cette capacité est extrêmement bénéfique pour les fournisseurs de services .NET.
3. Démarrer un nouveau projet dans Visual Studio
Dans cet article, nous utiliserons une nouvelle application console Visual Studio pour démontrer les capacités de traitement OCR d'IronOCR et de Syncfusion Essential PDF.
Ouvrez le logiciel Visual Studio, allez dans le menu fichier et sélectionnez Nouveau projet. Sélectionnez ensuite Application de console.
Saisissez le nom du projet et sélectionnez le chemin d'accès dans la zone de texte appropriée. Cliquez ensuite sur le bouton de création, puis sélectionnez le Framework .NET requis, comme dans la capture d'écran ci-dessous :
Le projet Visual Studio va maintenant générer la structure de la nouvelle application console. Le fichier program.cs sera ouvert à la fin de l'opération.
Nous allons maintenant ajouter les deux bibliothèques au projet.
4. Installer la bibliothèque IronOCR
La bibliothèque IronOCR peut être téléchargée et installée de quatre façons. Il s'agit de
Utilisation du gestionnaire de paquets NuGet de Visual Studio
Téléchargement direct depuis la page web de NuGet.
Téléchargement direct depuis la page web de l'IronOCR.
Utilisation de la ligne de commande de Visual Studio.
4.1. Utilisation du gestionnaire NuGet de Visual Studio
Vous pouvez intégrer IronOCR dans un projet C# à l'aide du gestionnaire de paquets NuGet de Visual Studio.
Accédez à l'interface graphique de NuGet Package Manager en cliquant sur Outils > NuGet Package Manager > Gérer les paquets NuGet pour les solutions...
Une nouvelle fenêtre apparaît alors. Recherchez IronOCR et installez le paquet dans le projet.
Des packs de langues supplémentaires pour IronOCR peuvent également être installés en utilisant la même méthode que celle décrite ci-dessus.
4.2. Téléchargement direct depuis la page web de NuGet
IronOCR peut être téléchargé directement depuis le site web de NuGet en suivant ces instructions :
Sélectionnez l'option de téléchargement dans le menu de droite.
Double-cliquez sur le paquet téléchargé. Il sera installé automatiquement.
4.3. Téléchargement direct à partir de la page web de l'IronOCR
Les développeurs peuventtélécharger la bibliothèque du site web IronOCR et l'ajouter comme référence du projet.
Suivez les instructions ci-dessous pour ajouter la bibliothèque en tant que référence dans Visual Studio.
Cliquez avec le bouton droit de la souris sur le projet dans la fenêtre de la solution.
Sélectionnez ensuite Ajouter une référence de projet et recherchez l'emplacement de la référence téléchargée.
Cliquez ensuite sur OK pour ajouter la référence.
4.4. Utilisation de la ligne de commande de Visual Studio
Dans Visual Studio, allez dans Outils > NuGet Package manager > Package manager console
Saisissez la ligne suivante dans l'onglet de la console du gestionnaire de paquets :
Installer le paquet IronOCR
Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.
5. Installer la bibliothèque Syncfusion Essential PDF OCR
Syncfsion Essential PDF peut être installé de trois manières différentes.
Utilisation du gestionnaire de paquets NuGet de Visual Studio
Téléchargement direct depuis la page web de NuGet.
Utilisation de la ligne de commande de Visual Studio.
5.1. Utilisation du gestionnaire NuGet de Visual Studio
Comme pour IronOCR, les développeurs peuvent également installer la bibliothèque OCR de SyncFusion à l'aide du gestionnaire de paquets NuGet de Visual Studio.
Accédez au gestionnaire de paquets comme précédemment en cliquant sur Outils > NuGet Package Manager > Gérer les paquets NuGet pour les solutions...
Recherchez SyncFusion OCR et installez le paquetage approprié(devrait être Syncfusion.PDF.OCR.Net.Core)
Des packs de langues supplémentaires pour SyncFusion Essential PDF OCR peuvent être téléchargés à l'adresse suivante GitHub.
5.2. Téléchargement direct depuis la page web de NuGet
Syncfusion Essential PDF OCR peut être téléchargé directement depuis le site NuGet en suivant ces instructions :
Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.
6. Effectuer une reconnaissance optique de caractères (OCR) sur un document PDF
IronOCR et Syncfusion OCR sont tous deux capables d'effectuer l'OCR sur des documents PDF. Nous verrons ici comment les deux peuvent être utilisés dans Visual Studio.
6.1. Extraction de texte PDF OCR à l'aide d'IronOCR
Avec seulement quelques lignes de code, les développeurs peuvent effectuer l'OCR sur un PDF entier ou sur des pages/parties spécifiques d'un PDF. Prenons l'exemple de l'extrait de code ci-dessous.
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
$vbLabelText $csharpLabel
6.2. PDF OCR Extraction de texte avec Syncfusion Essential PDF OCR
Vous pouvez utiliser la classe OCRProcessor pour effectuer l'OCR sur des documents PDF ainsi que sur des régions d'un document. Examinez l'exemple de code ci-dessous pour en comprendre le contexte.
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
$vbLabelText $csharpLabel
7. Effectuer l'OCR sur des images
Ces deux bibliothèques permettent d'effectuer une reconnaissance optique de caractères sur des images au sein d'une application C#.NET et .NET Core.
7.1. Effectuer l'OCR sur des images en utilisant IronOCR
IronOCR est unique dans sa capacité à détecter et à lire automatiquement du texte à partir d'images scannées imparfaites avec seulement deux lignes de code.
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
$vbLabelText $csharpLabel
Entrée OCR Image
OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode
7.2. Effectuer l'OCR sur l'image en utilisant le Syncfusion Essential PDF OCR Processor
Syncfusion Essential PDF est capable d'extraire le texte des images avec une grande précision.
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
Using Syncfusion.Pdf.Parsing
'loading the input image
Dim image As New Bitmap("11111.jpeg")
'Set OCR language to process
processor.Settings.Language = Languages.English
'Process OCR by providing the bitmap image, data dictionary and language
Dim ocrText As String= processor.PerformOCR(image, "TessData\")
End Using
End Using
$vbLabelText $csharpLabel
Image d'entrée OCR
FORMULAIRE DE SORTIE OCR IMAGE
OCR Outpu
Sortie de données simple :
+ NET Chaînes de texte
Dee eT Nd
tC eke ass
Biren)
Soja
Seg
ors
eae
eed
TLC
érès
Smt d
Voir "amr"
etd ieot
8. Licences
L'utilisation d'IronOCR et de Syncfusion Essential PDF nécessite des licences logicielles.
8.1. Licence IronOCR
IronOCR dispose d'une licence de développement gratuite pour les projets personnels et non commerciaux.
IronOCR propose une structure de prix distincte pour les licences commerciales. L'offre Lite commence à $749 sans frais supplémentaires. Toutes les licences comprennent une garantie de remboursement de 30 jours, un an d'assistance et de mises à jour du logiciel, des services de développement, de test, de mise en place et de production, ainsi qu'une licence perpétuelle(achat unique). Pour en savoir plus sur la structure tarifaire complète d'IronOCR et les informations relatives aux licences, consultez le site suivantcette page.
Moyennant une redevance unique de 1599 dollars, vous pouvez obtenir une redistribution libre de droits des produits SaaS et OEM.
8.2. Licence Syncfusion Essential PDF
Syncfusion Essential PDF propose trois types de licences pour les développeurs, mais n'offre pas de couverture SaaS et OEM.
**La licence communautaire est gratuite pour les développeurs et les petites entreprises jusqu'à 5 développeurs. Il comprend également une assistance en direct.
**La licence de vente au détail est une licence annuelle qui doit être achetée séparément pour chaque développeur d'une organisation. Les licences au détail commencent à partir de 995 $ par an et par développeur.
Licence Unlimited. Cette option permet d'obtenir des licences pour l'ensemble d'une organisation sur la même base annuelle, mais à un prix inférieur.
Voir la structure complète des licences pour Syncfusion Essential PDF(et pour les autres composants de Syncfusion) sur le page sur les licences de produits.
9. Conclusion
IronOCR prend en charge environ 125 langues mondiales au total. Ses capacités de traitement comprennent : la possibilité d'effectuer une reconnaissance optique de caractères (OCR) sur des parties d'un document PDF ou d'une image, la possibilité d'extraire du texte à partir de PDF et de photos, et la possibilité de corriger une image de mauvaise qualité, parmi beaucoup d'autres. IronOCR donne la priorité à la rapidité et à la précision. Son taux de précision de 99,8 % est supérieur à celui de toutes les autres bibliothèques d'OCR basées sur Tesseract disponibles sur le marché. IronOCR fonctionne dès sa sortie de l'emballage, sans qu'il soit nécessaire de régler les performances ou de prétraiter les images.
Syncfusion Essential PDF OCR utilise également le moteur open-source tesseract de Google. Il peut effectuer l'OCR sur des documents entiers ou des parties spécifiques de documents. La bibliothèque OCR de Syncfusion prend en charge plus de 60 langues internationales.
Les licences IronOCR sont valables à vie, avec une assistance illimitée et une couverture SaaS et OEM. D'autre part, Syncfusion Essential PDF OCR propose des licences annuelles. Les prix d'IronOCR commencent à partir de $749, et ceux de Syncfusion à partir de 995$ par an.
Obtenez IronOCR ainsi que quatre autres produits d'Iron Software à un prix réduit en achetant la version complète du logicielIron Suite. Les produits inclus dans l'Iron Suite comprennent :
IronPDF
IronOCR
IronXL
IronBarcode
IronWebscraper
Iron Softwarepage d'autorisation contient des informations plus détaillées sur les prix et les licences des cinq produits susmentionnés.
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT Comparaison entre IronOCR et Aspose.OCR
SUIVANT > Comparaison entre IronOCR et AWS Textract OCR
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucune obligation de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre gratuit Démonstration en direct
Fiable par plus de 2 millions d'ingénieurs dans le monde entier