Passer au contenu du pied de page
COMPARER à D'AUTRES COMPOSANTS

Une comparaison entre IronOCR et Syncfusion OCR

Cet article comparera deux bibliothèques de logiciels qui utilisent la reconnaissance optique de caractères (OCR) pour automatiser la détection et l'extraction de texte imprimé à partir d'images et de documents numérisés. Tout d'abord, nous discuterons des caractéristiques des deux bibliothèques. Ensuite, nous examinerons et comparerons leurs capacités de reconnaissance et d'extraction de texte en utilisant du code source d'exemple produit avec les deux bibliothèques. Enfin, nous comparerons les licences et les prix des bibliothèques.

Les bibliothèques que nous allons comparer dans cet article sont :

  • IronOCR
  • Syncfusion Essential PDF

1. Syncfusion OCR

La bibliothèque Essential PDF de Syncfusion intègre la fonctionnalité OCR pour permettre le traitement des images-texte sur les images numérisées dans des documents PDF.

Le processeur OCR de Syncfusion peut fonctionner avec les versions 3 (3.02 et 3.05) et 4 de Tesseract. La bibliothèque peut être incluse dans les applications .NET Core et ASP.NET.

Les fonctionnalités de l'OCR d'Essential PDF de SyncFusion incluent :

  • Exécuter des tâches OCR sur des documents PDF. La classe OCRProcessor de la bibliothèque peut être utilisée pour effectuer des OCR sur des fichiers PDF. Elle est basée sur le processeur de données Tesseract, qui est connu pour être l'un des meilleurs processeurs OCR au monde.
  • Exécuter des tâches OCR sur des parties de documents PDF. Les utilisateurs peuvent effectuer une OCR sur des pages ou des zones spécifiques d'un document PDF.
  • Exécuter des tâches OCR sur des images. Les utilisateurs peuvent extraire des données textuelles à partir d'images pour les importer dans d'autres applications.
  • Prise en charge multilingue. Le moteur Google Tesseract (par extension de Syncfusion) prend actuellement en charge plus de 60 langues et expérimente encore bien d'autres.
  • Bonne précision. En utilisant le moteur open-source Tesseract de Google, Syncfusion Essential PDF atteint une très bonne précision de texte, effectuant l'OCR dans un temps raisonnable.

2. IronOCR

IronOCR est une bibliothèque logicielle C# qui permet aux développeurs de la plate-forme .NET de reconnaître et de lire le texte à partir d'images et de documents PDF. C'est une bibliothèque OCR exclusivement .NET qui utilise le puissant moteur Tesseract. Les versions 3 à 5 de Tesseract fonctionnent dès l'installation sur Windows, macOS, Linux, Azure, AWS, Lambda, Mono et Xamarin Mac.

IronOCR couvre plus de langues que tout autre moteur OCR disponible, supportant 125 langues (seul l'anglais est installé par défaut).

Les développeurs .NET ont un contrôle total sur leurs documents, en étant capables de les modifier selon leurs besoins.

2.1. Caractéristiques d'IronOCR

IronOCR offre une combinaison unique de capacités et de fonctions pour intégrer, signer, exporter, lire les visuels et extraire les détails des photos, indépendamment du niveau technique de l'utilisateur ou de la sophistication du matériel.

2.1.1. Précision

Le SDK IronOCR surpasse les autres bibliothèques OCR en termes de précision, avec un taux de 99,8 pour cent.

2.1.2. Corriger les scans et images de faible qualité

La classe IronOCR offre un contrôle étendu aux développeurs C#. Elle permet aux développeurs d'effectuer des OCR (images et PDF en texte) et d'optimiser la performance dans chaque cas spécifique.

IronOCR comprend des options de configuration permettant à la bibliothèque de traiter les images qui ne sont pas de qualité idéale. Certaines de ces configurations incluent : Nettoyer les bruits de fond, Améliorer le contraste, Améliorer la résolution, Langue, Stratégie, Tourner et redresser, Espace colorimétrique, Détecter le texte blanc sur des fonds sombres, et le type d'image en entrée.

2.1.3. Langues

IronOCR prend en charge plus de 125 langues internationales.

2.1.4. Extraction de texte OCR

Le Iron Tesseract peut lire plusieurs formats d'image ainsi que les fichiers PDF. Cette fonctionnalité est indisponible avec les moteurs Tesseract gratuits standard. Si vos scans sont de mauvaise qualité, l'entrée OCR permet de corriger automatiquement les attributs requis.

2.1.5. Filtres d'optimisation des images

La classe OCRInput fournit aux programmeurs C# un contrôle très précis sur l'entrée. L'entrée d'image est ensuite prétraitée par les développeurs pour la vitesse et la précision. Cela élimine le besoin d'utiliser des scripts de traitement par lots Photoshop ou ImageMagick pour préparer les photos avant le traitement OCR.

2.1.6. Région OCR d'une image

IronOCR permet à ses utilisateurs d'effectuer des OCR sur des zones spécifiques d'une image.

2.1.7. Classe OCRResult

IronOCR retourne un objet de résultat avancé pour chaque page qu'il scanne en utilisant Tesseract 3, 4, ou 5. Cela contient des données de localisation, des images, du texte, des statistiques de confiance, des choix de symboles alternatifs, des noms de police, des tailles de police, des décorations, des poids de police, et une position pour chacun des éléments suivants :

  • Pages
  • Paragraphes
  • Lignes de texte
  • Mots
  • Caractères individuels
  • Codes-barres

2.1.8. Langues multiples dans un même document

IronOCR permet aux développeurs d'utiliser plusieurs langues dans un même document. Cette capacité est extrêmement bénéfique pour les prestataires de services .NET.

3. Démarrer un nouveau projet dans Visual Studio

Dans cet article, nous utiliserons une nouvelle application Console de Visual Studio pour démontrer les capacités de traitement OCR de IronOCR et de Syncfusion Essential PDF.

Ouvrez le logiciel Visual Studio, accédez au menu Fichier et sélectionnez Nouveau projet. Ensuite, sélectionnez Application Console.

Entrez le nom du projet et sélectionnez le chemin dans la zone de texte appropriée. Ensuite, cliquez sur le bouton créer, puis sélectionnez le framework .NET requis, comme dans la capture d'écran ci-dessous :

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 1

Le projet Visual Studio générera maintenant la structure pour la nouvelle application console. Le fichier program.cs sera ouvert dès la fin de l'opération.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 2

Nous allons maintenant ajouter les deux bibliothèques au projet.

4. Installer la bibliothèque IronOCR

La bibliothèque IronOCR peut être téléchargée et installée de quatre manières. Ce sont :

  1. En utilisant le gestionnaire de packages NuGet de Visual Studio
  2. Téléchargement direct depuis la page web NuGet.
  3. Téléchargement direct depuis la page web IronOCR.
  4. Utilisation de la ligne de commande de Visual Studio.

4.1. Utilisation du gestionnaire NuGet de Visual Studio

Vous pouvez intégrer IronOCR dans un projet C# en utilisant le gestionnaire de packages NuGet de Visual Studio.

Accédez à l'interface graphique du gestionnaire de packages NuGet en cliquant sur Outils > Gestionnaire de packages NuGet > Gérer les packages NuGet pour les solutions...

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 3

Après cela, une nouvelle fenêtre apparaîtra. Recherchez IronOCR et installez le package dans le projet.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 4

Des packs de langues supplémentaires pour IronOCR peuvent également être installés en utilisant la même méthode décrite ci-dessus.

4.2. Téléchargement direct depuis la page NuGet

  1. Accédez au lien " https://www.nuget.org/packages/IronOcr/ ".

  2. Navigate to the IronPDF NuGet Gallery Page.
  3. Double-cliquez sur le package téléchargé.
  4. Double-cliquez sur le package téléchargé. Il s'installera automatiquement.

4.3. Téléchargement direct depuis la page web d'IronOCR

Les développeurs peuvent télécharger la bibliothèque depuis le site web d'IronOCR et l'ajouter comme référence de projet.

Suivez les instructions ci-dessous pour ajouter la bibliothèque en tant que référence dans Visual Studio.

  1. Ensuite, sélectionnez l'option Référence et parcourez l'emplacement de la référence téléchargée.
  2. Ensuite, sélectionnez Ajouter une référence de projet et naviguez jusqu'à l'emplacement de la référence téléchargée.

2.4. Utilisation de la ligne de commande dans Visual Studio

4.4. Utilisation de la ligne de commande Visual Studio

  1. Dans Visual Studio, allez à Outils > Gestionnaire de packages NuGet > Console du gestionnaire de packages. Le package va maintenant se télécharger/s'installer dans le projet en cours et est prêt à être utilisé.
Install-Package IronOcr
A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 5

Le package va maintenant se télécharger/s'installer dans le projet actuel et être prêt à l'emploi.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 6

5. Installer la bibliothèque OCR Syncfusion Essential PDF

Syncfusion Essential PDF peut être installé de trois manières différentes.

  1. En utilisant le gestionnaire de packages NuGet de Visual Studio
  2. Téléchargement direct depuis la page web NuGet.
  3. Utilisation de la ligne de commande de Visual Studio.

5.1. Utilisation du gestionnaire NuGet de Visual Studio

Comme avec IronOCR, les développeurs peuvent également installer la bibliothèque OCR de SyncFusion en utilisant le gestionnaire de packages NuGet de Visual Studio.

Accédez au gestionnaire de packages comme précédemment en cliquant sur Outils > Gestionnaire de packages NuGet > Gérer les packages NuGet pour les solutions...

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 7

Recherchez SyncFusion OCR et installez le package approprié (devrait être Syncfusion.PDF.OCR.Net.Core).

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 8

Additional language packs for SyncFusion Essential PDF OCR can be downloaded from GitHub.

5.2. Téléchargement direct depuis la page NuGet

Syncfusion Essential PDF OCR peut être téléchargé directement depuis le site NuGet en suivant ces instructions :

  1. Navigate to the package's NuGet Gallery page.
  2. Double-cliquez sur le package téléchargé.
  3. Double-cliquez sur le package téléchargé. Il s'installera automatiquement.

2.3. Téléchargement direct via la page Web IronOCR

5.3. Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, allez à Outils > Gestionnaire de Packages NuGet > Console du Gestionnaire de Packages. Le package va maintenant se télécharger/s'installer dans le projet en cours et est prêt à être utilisé.
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 9

Le package va maintenant se télécharger/s'installer dans le projet actuel et être prêt à l'emploi.

6. Effectuer un OCR sur un document PDF

IronOCR et le OCR de Syncfusion sont capables d'effectuer des OCR sur des documents PDF. Ici, nous discuterons de la façon dont les deux peuvent être utilisés dans Visual Studio.

6.1. Extraction de texte OCR PDF à l'aide d'IronOCR

Avec seulement quelques lignes de code, les développeurs peuvent effectuer des OCR sur un PDF complet ou sur des pages/secteurs spécifiques d'un PDF. Considérez l'extrait de code ci-dessous.

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Add a PDF document and specify a password if needed
    Input.AddPdf("example.pdf", "password");
    // Read the textual content from the PDF
    var Result = Ocr.Read(Input);
    // Display the text in the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Add a PDF document and specify a password if needed
    Input.AddPdf("example.pdf", "password");
    // Read the textual content from the PDF
    var Result = Ocr.Read(Input);
    // Display the text in the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Add a PDF document and specify a password if needed
	Input.AddPdf("example.pdf", "password")
	' Read the textual content from the PDF
	Dim Result = Ocr.Read(Input)
	' Display the text in the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

6.2. Extraction de texte OCR PDF à l'aide de Syncfusion Essential PDF OCR

Vous pouvez utiliser la classe OCRProcessor pour effectuer un OCR sur des documents PDF ainsi que sur des régions d'un document. Examinez l'exemple de code ci-dessous pour le contexte.

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input PDF document
    PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded PDF
    processor.PerformOCR(lDoc, @"TessData\");
    // Save the processed PDF
    lDoc.Save("Sample.pdf");
    // Close the document
    lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Parsing;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input PDF document
    PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded PDF
    processor.PerformOCR(lDoc, @"TessData\");
    // Save the processed PDF
    lDoc.Save("Sample.pdf");
    // Close the document
    lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Parsing

' Initialize the OCR processor
Using processor As New OCRProcessor("TesseractBinaries\")
	' Load the input PDF document
	Dim lDoc As New PdfLoadedDocument("Input.pdf")
	' Set the OCR language
	processor.Settings.Language = Languages.English
	' Perform OCR on the loaded PDF
	processor.PerformOCR(lDoc, "TessData\")
	' Save the processed PDF
	lDoc.Save("Sample.pdf")
	' Close the document
	lDoc.Close(True)
End Using
$vbLabelText   $csharpLabel

7. Effectuer un OCR sur des images

Les deux bibliothèques peuvent effectuer un OCR sur des images dans une application C#.NET et .NET Core.

7.1. Effectuer un OCR sur des images avec IronOCR

IronOCR est unique dans sa capacité à détecter automatiquement et lire le texte à partir d'images scannées imparfaitement avec seulement deux lignes de code.

using IronOcr;

// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;

// Perform OCR and read text from the specified image
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr

' Perform OCR and read text from the specified image
Private Result = (New IronTesseract()).Read("images\11111.png").Text
$vbLabelText   $csharpLabel

Image d'entrée OCR

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 10

OCR OUTPUT from IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» Words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text Element or Barcode

7.2. Effectuer un OCR sur une image en utilisant le processeur Syncfusion Essential PDF OCR

Syncfusion Essential PDF est capable d'extraire du texte à partir d'images avec une grande précision.

using System.Drawing;
using Syncfusion.OCRProcessor;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input image
    Bitmap image = new Bitmap("11111.jpeg");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded image
    string ocrText = processor.PerformOCR(image, @"TessData\");
}
using System.Drawing;
using Syncfusion.OCRProcessor;

// Initialize the OCR processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
    // Load the input image
    Bitmap image = new Bitmap("11111.jpeg");
    // Set the OCR language
    processor.Settings.Language = Languages.English;
    // Perform OCR on the loaded image
    string ocrText = processor.PerformOCR(image, @"TessData\");
}
Imports System.Drawing
Imports Syncfusion.OCRProcessor

' Initialize the OCR processor
Using processor As New OCRProcessor("TesseractBinaries\")
	' Load the input image
	Dim image As New Bitmap("11111.jpeg")
	' Set the OCR language
	processor.Settings.Language = Languages.English
	' Perform OCR on the loaded image
	Dim ocrText As String = processor.PerformOCR(image, "TessData\")
End Using
$vbLabelText   $csharpLabel

Image d'entrée OCR

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 11

OCR OUTPUT from IMAGE
OCR Output
Simple Data Output:
+ NET Text Strings
Dee eT Nd
tC eke ass
Biren)
Soy
Seg
ors
eae
eed
TLC
eres
Smt d
See amr'
etd ieot

8. Licences

L'utilisation d'IronOCR et de Syncfusion Essential PDF nécessite des licences logicielles.

8.1. Licence IronOCR

IronOCR dispose d'une licence de développement gratuite pour des projets personnels non commerciaux.

IronOCR offre une structure de tarification distincte pour les licences commerciales. Le forfait Lite commence à $799 sans coûts supplémentaires. Toutes les licences incluent une garantie de remboursement de 30 jours, un an de support logiciel et de mises à jour, une validité pour le développement, les tests, la mise en scène, et la production, et une licence perpétuelle (achat unique). En savoir plus sur la structure complète des prix et les informations de licence d'IronOCR à partir de cette page.

Pour un tarif unique de $1,599, vous pouvez obtenir une redistribution sans royalties des biens SaaS et OEM.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 12

8.2. Licence Syncfusion Essential PDF

Syncfusion Essential PDF propose trois types de licences développeur, mais ne fournit pas de couverture SaaS et OEM.

  • Licence communautaire. La licence communautaire est gratuite pour les développeurs et les petites entreprises de jusqu'à 5 développeurs. Elle inclut également un support en direct.
  • Licence retail. La licence retail est une licence annuelle qui doit être achetée séparément pour chaque développeur d'une organisation. Les licences retail commencent à partir de $995 par an par développeur.
  • Licence illimitée. Cette option fournit des licences pour toute une entreprise sur la même base annuelle mais à un prix inférieur.

View the entire licensing structure for Syncfusion Essential PDF (and for other Syncfusion components) on the product licensing page.

A Comparison Between IronOCR and SyncFusion Essential PDF OCR, Figure 13

9. Conclusion

IronOCR prend en charge environ 125 langues mondiales au total. Ses capacités de traitement incluent : la capacité d'effectuer un OCR sur des parties d'un document PDF ou d'une image, la possibilité d'extraire du texte à partir de PDF et d'images, et la capacité de corriger une image de mauvaise qualité, parmi bien d'autres. IronOCR priorise la rapidité et la précision. Son taux de précision de 99,8 pour cent est supérieur à toute autre bibliothèque OCR alimentée par Tesseract sur le marché. IronOCR fonctionne dès l'installation, sans besoin de réglage des performances ou de prétraitement des images.

Syncfusion Essential PDF OCR utilise également le moteur open-source Tesseract de Google. Il peut effectuer un OCR sur des documents entiers ou des portions spécifiques de documents. La bibliothèque OCR de Syncfusion prend en charge plus de 60 langues internationales.

Les licences IronOCR sont valides à vie avec un support illimité ainsi qu'une couverture SaaS et OEM. Par contre, Syncfusion Essential PDF OCR offre des licences annuelles. Les prix d'IronOCR commencent à partir de $799, et les prix de Syncfusion commencent à partir de $995 par an.

Obtenez IronOCR avec quatre autres produits Iron Software à un prix réduit en achetant l'ensemble complet Iron Suite. Les produits inclus dans l'Iron Suite sont :

  1. IronPDF
  2. IronOCR
  3. IronXL
  4. IronBarcode
  5. IronWebscraper

La page des licences de Iron Software contient plus d'informations détaillées sur les prix et les licences pour les cinq produits ci-dessus.

Veuillez noterSyncfusion Essential PDF est une marque déposée de son propriétaire respectif. Ce site n'est pas affilié, approuvé, ou sponsorisé par Syncfusion Essential PDF. Tous les noms de produits, logos et marques sont la propriété de leurs propriétaires respectifs. Les comparaisons sont uniquement à des fins d'information et reflètent les informations disponibles publiquement au moment de la rédaction.

Questions Fréquemment Posées

Comment puis-je effectuer une reconnaissance optique de caractères sur des images en utilisant C# ?

Vous pouvez utiliser IronOCR pour effectuer une reconnaissance optique de caractères sur des images en C#. Il fournit des méthodes pour extraire du texte à partir de divers formats d'image avec une grande précision et prend en charge plus de 125 langues.

Quels sont les avantages d'utiliser IronOCR pour les tâches OCR ?

IronOCR offre d'excellents taux de précision de 99,8%, prend en charge la reconnaissance optique de caractères sur des régions spécifiques de documents, dispose de fonctionnalités d'optimisation d'image pour les scans de faible qualité, et prend en charge un large éventail de langues.

Comment IronOCR se compare-t-il aux capacités de reconnaissance optique de caractères de Syncfusion ?

Bien que les deux utilisent le moteur Tesseract, IronOCR prend en charge plus de versions (3-5) et de langues (125+), offre une meilleure précision, et fournit des capacités de correction d'image améliorées par rapport à l'OCR de Syncfusion.

Quelles options de licences sont disponibles pour IronOCR ?

IronOCR offre une licence de développement gratuite pour un usage personnel, avec des licences commerciales disponibles à partir d'un coût unique de 1599 $, incluant une licence perpétuelle et une couverture SaaS/EDI.

Puis-je utiliser IronOCR pour extraire du texte de documents PDF scannés ?

Oui, IronOCR peut extraire du texte de documents PDF scannés en utilisant ses capacités de reconnaissance optique de caractères basées sur Tesseract, garantissant une grande précision et un support linguistique.

Quelles plateformes sont prises en charge par IronOCR ?

IronOCR est polyvalent et prend en charge plusieurs plateformes, y compris Windows, macOS, Linux, Azure, AWS, Lambda, Mono, et Xamarin Mac.

Comment IronOCR gère-t-il les scans d'images de faible qualité ?

IronOCR inclut des fonctionnalités pour améliorer la qualité de l'image telles que le nettoyage du bruit de fond, l'amélioration du contraste et l'ajustement de la résolution, ce qui améliore les résultats de reconnaissance optique de caractères sur des images de faible qualité.

Est-il possible d'effectuer une reconnaissance optique de caractères sur des zones spécifiques d'un document avec IronOCR ?

Oui, IronOCR permet aux utilisateurs de spécifier des zones ou des pages particulières d'un document pour la reconnaissance optique de caractères, offrant flexibilité et contrôle sur le processus d'extraction de texte.

Comment puis-je intégrer IronOCR dans un projet .NET ?

IronOCR peut être intégré dans un projet .NET via le Gestionnaire de packages NuGet de Visual Studio, depuis le site web de NuGet, ou en téléchargeant depuis le site web d'IronOCR.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite