COMPARAISON AVEC D'AUTRES COMPOSANTS

Comparaison entre IronOCR et Syncfusion OCR

Publié novembre 14, 2022
Partager:

Cet article compare deux bibliothèques logicielles qui utilisent la reconnaissance optique de caractères(OCR) pour automatiser la détection et l'extraction de textes imprimés ou manuscrits à partir d'images et de documents numérisés. Tout d'abord, nous examinerons les caractéristiques des deux bibliothèques. Ensuite, nous examinerons et comparerons leurs capacités de reconnaissance et d'extraction de texte à l'aide d'un exemple de code source produit avec les deux bibliothèques. Enfin, nous comparerons les licences et les prix des bibliothèques.

Les bibliothèques que nous allons comparer dans cet article sont les suivantes :

  • IronOCR
  • Syncfusion Essential PDF

1. Syncfusion OCR

La bibliothèque Essential PDF de Syncfusion intègre une fonctionnalité OCR qui permet le traitement image-texte des images numérisées dans les documents PDF.

Le processeur OCR de Syncfusion peut fonctionner avec les versions 3 de Tesseract(3.02 et 3.05) et 4. La bibliothèque peut être incluse dans les applications .NET Core et ASP.NET.

Les caractéristiques de la fonctionnalité OCR de SyncFusion Essential PDF comprennent:

  • **Effectuer des tâches d'OCR sur des documents PDF OCRProcessor peut être utilisée pour effectuer une reconnaissance optique des caractères (OCR) sur les fichiers PDF. Il est basé sur le processeur de données Tesseract, connu pour être l'un des meilleurs processeurs OCR au monde.
  • **Les utilisateurs peuvent effectuer des tâches d'OCR sur des parties de documents PDF.
  • **Les utilisateurs peuvent extraire des données textuelles des images pour les importer dans d'autres applications.
  • **Le moteur Google Tesseract est un moteur multilingue(Syncfusion par extension) prend actuellement en charge plus de 60 langues et en expérimente de nombreuses autres.
  • **En exploitant le moteur open source Tesseract de Google, Syncfusion Essential PDF atteint une très bonne précision de texte, réalisant l'OCR en un temps raisonnable.

2. IronOCR

IronOCR est une bibliothèque logicielle C# qui permet aux développeurs de la plate-forme .NET de reconnaître et de lire du texte à partir d'images et de documents PDF. Il s'agit d'une bibliothèque d'OCR exclusivement .NET qui utilise le puissant moteur Tesseract. Les versions 3 à 5 de Tesseract fonctionnent dès le départ sur Windows, macOS, Linux, Azure, AWS, Lambda, Mono et Xamarin Mac.

IronOCR couvre plus de langues que tous les moteurs d'OCR disponibles, en prenant en charge 125 langues,(seul l'anglais est installé par défaut).

les développeurs .NET ont un contrôle total sur leurs documents et peuvent les modifier comme bon leur semble.

2.1. Caractéristiques de l'IronOCR

IronOCR offre une combinaison unique de capacités et de fonctions permettant d'intégrer, de signer, d'exporter, de lire des visuels et d'extraire des détails de photos, indépendamment du bagage technique de l'utilisateur ou de la sophistication du matériel.

2.1.1. Précision

Le SDK IronOCR surpasse les autres bibliothèques OCR en termes de précision, avec un taux de 99,8 %.

2.1.2. Correction des scans et des images de mauvaise qualité

La classe IronOCR offre un contrôle étendu aux développeurs C#. Ils donnent à leurs développeurs l'OCR(images et PDF en texte) et des performances optimisées dans chaque cas spécifique.

IronOCR comprend des options de configuration qui permettent à la bibliothèque de traiter des images dont la qualité n'est pas idéale. Voici quelques-unes des configurations disponibles : Nettoyer le bruit de fond, Améliorer le contraste, Améliorer la résolution, Langue, Stratégie, Tourner et redresser, Espace couleur, Détecter le texte blanc sur fond sombre, et Type d'image d'entrée.

2.1.3. Les langues

IronOCR prend en charge plus de 125 langues internationales.

2.1.4. Extraction de texte par OCR

Le Tesseract d'Iron peut lire plusieurs formats d'images ainsi que des fichiers PDF. Cette fonctionnalité n'est pas disponible avec les moteurs Tesseract standards et gratuits. Si vos scans sont de mauvaise qualité, l'entrée OCR vous permet de fixer automatiquement les attributs nécessaires.

2.1.5. Filtres d'optimisation d'image

La classe OCRInput permet aux programmeurs C# de contrôler finement les entrées. Les images sont ensuite prétraitées par les développeurs afin de gagner en rapidité et en précision. Il n'est donc plus nécessaire d'utiliser les scripts Photoshop Batch ou ImageMagick pour préparer les photographies avant le traitement OCR.

2.1.6. Région OCR d'une image

IronOCR permet à ses utilisateurs finaux d'effectuer l'OCR sur des zones spécifiques d'une image.

2.1.7. Classe OCRResult

IronOCR renvoie un objet de résultat avancé pour chaque page qu'il scanne à l'aide de Tesseract 3,4 ou 5. Cet objet contient des données de localisation, des images, du texte, une confiance statistique, des choix de symboles alternatifs, des noms de polices, des décorations de tailles de polices, des graisses de polices et une position pour chacun des éléments suivants :

  • Pages
  • Paragraphes
  • Lignes de texte
  • Mots
  • Personnages individuels
  • Codes à barres

2.1.8. Plusieurs langues dans un même document

IronOCR permet aux développeurs d'utiliser plusieurs langues dans un seul document. Cette capacité est extrêmement bénéfique pour les fournisseurs de services .NET.

3. Démarrer un nouveau projet dans Visual Studio

Dans cet article, nous utiliserons une nouvelle application console Visual Studio pour démontrer les capacités de traitement OCR d'IronOCR et de Syncfusion Essential PDF.

Ouvrez le logiciel Visual Studio, allez dans le menu fichier et sélectionnez Nouveau projet. Sélectionnez ensuite Application de console.

Saisissez le nom du projet et sélectionnez le chemin d'accès dans la zone de texte appropriée. Cliquez ensuite sur le bouton de création, puis sélectionnez le Framework .NET requis, comme dans la capture d'écran ci-dessous :

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 1

Le projet Visual Studio va maintenant générer la structure de la nouvelle application console. Le fichier program.cs sera ouvert à la fin de l'opération.

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 2

Nous allons maintenant ajouter les deux bibliothèques au projet.

4. Installer la bibliothèque IronOCR

La bibliothèque IronOCR peut être téléchargée et installée de quatre façons. Il s'agit de

  1. Utilisation du gestionnaire de paquets NuGet de Visual Studio

  2. Téléchargement direct depuis la page web de NuGet.

  3. Téléchargement direct depuis la page web de l'IronOCR.

  4. Utilisation de la ligne de commande de Visual Studio.

4.1. Utilisation du gestionnaire NuGet de Visual Studio

Vous pouvez intégrer IronOCR dans un projet C# à l'aide du gestionnaire de paquets NuGet de Visual Studio.

Accédez à l'interface graphique de NuGet Package Manager en cliquant sur Outils > NuGet Package Manager > Gérer les paquets NuGet pour les solutions...

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 3

Une nouvelle fenêtre apparaît alors. Recherchez IronOCR et installez le paquet dans le projet.

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 4

Des packs de langues supplémentaires pour IronOCR peuvent également être installés en utilisant la même méthode que celle décrite ci-dessus.

4.2. Téléchargement direct depuis la page web de NuGet

IronOCR peut être téléchargé directement depuis le site web de NuGet en suivant ces instructions :

  1. Naviguez jusqu'à la page Page de la galerie NuGet d'IronPDF

  2. Sélectionnez l'option de téléchargement dans le menu de droite.

  3. Double-cliquez sur le paquet téléchargé. Il sera installé automatiquement.

4.3. Téléchargement direct à partir de la page web de l'IronOCR

Les développeurs peuventtélécharger la bibliothèque du site web IronOCR et l'ajouter comme référence du projet.

Suivez les instructions ci-dessous pour ajouter la bibliothèque en tant que référence dans Visual Studio.

  1. Cliquez avec le bouton droit de la souris sur le projet dans la fenêtre de la solution.

  2. Sélectionnez ensuite Ajouter une référence de projet et recherchez l'emplacement de la référence téléchargée.

  3. Cliquez ensuite sur OK pour ajouter la référence.

4.4. Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, allez dans Outils > NuGet Package manager > Package manager console

  2. Saisissez la ligne suivante dans l'onglet de la console du gestionnaire de paquets :

  3. Installer le paquet IronOCR
    Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 5

    Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.

    Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 6

5. Installer la bibliothèque Syncfusion Essential PDF OCR

Syncfsion Essential PDF peut être installé de trois manières différentes.

  1. Utilisation du gestionnaire de paquets NuGet de Visual Studio

  2. Téléchargement direct depuis la page web de NuGet.

  3. Utilisation de la ligne de commande de Visual Studio.

5.1. Utilisation du gestionnaire NuGet de Visual Studio

Comme pour IronOCR, les développeurs peuvent également installer la bibliothèque OCR de SyncFusion à l'aide du gestionnaire de paquets NuGet de Visual Studio.

Accédez au gestionnaire de paquets comme précédemment en cliquant sur Outils > NuGet Package Manager > Gérer les paquets NuGet pour les solutions...

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 7

Recherchez SyncFusion OCR et installez le paquetage approprié(devrait être Syncfusion.PDF.OCR.Net.Core)

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 8

Des packs de langues supplémentaires pour SyncFusion Essential PDF OCR peuvent être téléchargés à l'adresse suivante GitHub.

5.2. Téléchargement direct depuis la page web de NuGet

Syncfusion Essential PDF OCR peut être téléchargé directement depuis le site NuGet en suivant ces instructions :

  1. Naviguez jusqu'à la page Page de la galerie NuGet.

  2. Sélectionnez l'option de téléchargement dans le menu de droite.

  3. Double-cliquez sur le paquet téléchargé. Il sera installé automatiquement.

  4. Ensuite, rechargez la solution et commencez à l'utiliser dans le projet.

5.3. Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, allez dans Outils > NuGet Package Manager > Package Manager Console

  2. Saisissez la ligne suivante dans l'onglet de la console du gestionnaire de paquets :
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 9

Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.

6. Effectuer une reconnaissance optique de caractères (OCR) sur un document PDF

IronOCR et Syncfusion OCR sont tous deux capables d'effectuer l'OCR sur des documents PDF. Nous verrons ici comment les deux peuvent être utilisés dans Visual Studio.

6.1. Extraction de texte PDF OCR à l'aide d'IronOCR

Avec seulement quelques lignes de code, les développeurs peuvent effectuer l'OCR sur un PDF entier ou sur des pages/parties spécifiques d'un PDF. Prenons l'exemple de l'extrait de code ci-dessous.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

6.2. PDF OCR Extraction de texte avec Syncfusion Essential PDF OCR

Vous pouvez utiliser la classe OCRProcessor pour effectuer l'OCR sur des documents PDF ainsi que sur des régions d'un document. Examinez l'exemple de code ci-dessous pour en comprendre le contexte.

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
VB   C#

7. Effectuer l'OCR sur des images

Ces deux bibliothèques permettent d'effectuer une reconnaissance optique de caractères sur des images au sein d'une application C#.NET et .NET Core.

7.1. Effectuer l'OCR sur des images en utilisant IronOCR

IronOCR est unique dans sa capacité à détecter et à lire automatiquement du texte à partir d'images scannées imparfaites avec seulement deux lignes de code.

using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
VB   C#

Entrée OCR Image

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 10

OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode

7.2. Effectuer l'OCR sur l'image en utilisant le Syncfusion Essential PDF OCR Processor

Syncfusion Essential PDF est capable d'extraire le texte des images avec une grande précision.

using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
	Using Syncfusion.Pdf.Parsing
	'loading the input image
	Dim image As New Bitmap("11111.jpeg")
	'Set OCR language to process
	processor.Settings.Language = Languages.English
	'Process OCR by providing the bitmap image, data dictionary and language
	Dim ocrText As String= processor.PerformOCR(image, "TessData\")
	End Using
End Using
VB   C#

Image d'entrée OCR

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 11


FORMULAIRE DE SORTIE OCR IMAGE

OCR Outpu

Sortie de données simple :

+ NET Chaînes de texte

 Dee eT Nd

 tC eke ass

 Biren)

 Soja

 Seg

 ors

 eae

 eed

 TLC

 érès

 Smt d

 Voir "amr"

 etd ieot

8. Licences

L'utilisation d'IronOCR et de Syncfusion Essential PDF nécessite des licences logicielles.

8.1. Licence IronOCR

IronOCR dispose d'une licence de développement gratuite pour les projets personnels et non commerciaux.

IronOCR propose une structure de prix distincte pour les licences commerciales. L'offre Lite commence à $749 sans frais supplémentaires. Toutes les licences comprennent une garantie de remboursement de 30 jours, un an d'assistance et de mises à jour du logiciel, des services de développement, de test, de mise en place et de production, ainsi qu'une licence perpétuelle(achat unique). Pour en savoir plus sur la structure tarifaire complète d'IronOCR et les informations relatives aux licences, consultez le site suivantcette page.

Moyennant une redevance unique de 1599 dollars, vous pouvez obtenir une redistribution libre de droits des produits SaaS et OEM.

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 12

8.2. Licence Syncfusion Essential PDF

Syncfusion Essential PDF propose trois types de licences pour les développeurs, mais n'offre pas de couverture SaaS et OEM.

  • **La licence communautaire est gratuite pour les développeurs et les petites entreprises jusqu'à 5 développeurs. Il comprend également une assistance en direct.
  • **La licence de vente au détail est une licence annuelle qui doit être achetée séparément pour chaque développeur d'une organisation. Les licences au détail commencent à partir de 995 $ par an et par développeur.
  • Licence Unlimited. Cette option permet d'obtenir des licences pour l'ensemble d'une organisation sur la même base annuelle, mais à un prix inférieur.

    Voir la structure complète des licences pour Syncfusion Essential PDF(et pour les autres composants de Syncfusion) sur le page sur les licences de produits.

    Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 13

9. Conclusion

IronOCR prend en charge environ 125 langues mondiales au total. Ses capacités de traitement comprennent : la possibilité d'effectuer une reconnaissance optique de caractères (OCR) sur des parties d'un document PDF ou d'une image, la possibilité d'extraire du texte à partir de PDF et de photos, et la possibilité de corriger une image de mauvaise qualité, parmi beaucoup d'autres. IronOCR donne la priorité à la rapidité et à la précision. Son taux de précision de 99,8 % est supérieur à celui de toutes les autres bibliothèques d'OCR basées sur Tesseract disponibles sur le marché. IronOCR fonctionne dès sa sortie de l'emballage, sans qu'il soit nécessaire de régler les performances ou de prétraiter les images.

Syncfusion Essential PDF OCR utilise également le moteur open-source tesseract de Google. Il peut effectuer l'OCR sur des documents entiers ou des parties spécifiques de documents. La bibliothèque OCR de Syncfusion prend en charge plus de 60 langues internationales.

Les licences IronOCR sont valables à vie, avec une assistance illimitée et une couverture SaaS et OEM. D'autre part, Syncfusion Essential PDF OCR propose des licences annuelles. Les prix d'IronOCR commencent à partir de $749, et ceux de Syncfusion à partir de 995$ par an.

Obtenez IronOCR ainsi que quatre autres produits d'Iron Software à un prix réduit en achetant la version complète du logicielIron Suite. Les produits inclus dans l'Iron Suite comprennent :

  1. IronPDF

  2. IronOCR

  3. IronXL

  4. IronBarcode

  5. IronWebscraper

    Iron Softwarepage d'autorisation contient des informations plus détaillées sur les prix et les licences des cinq produits susmentionnés.

< PRÉCÉDENT
Comparaison entre IronOCR et Aspose.OCR
SUIVANT >
Comparaison entre IronOCR et AWS Textract OCR