COMPARAISON AVEC D'AUTRES COMPOSANTS

Comparaison entre IronOCR et Syncfusion OCR

Kannaopat Udonpant
Kannapat Udonpant
novembre 14, 2022
Partager:

Cet article comparera deux bibliothèques logicielles qui utilisent la reconnaissance optique de caractères (OCR) pour automatiser la détection et l'extraction de texte imprimé à partir d'images et de documents numérisés. Tout d'abord, nous examinerons les caractéristiques des deux bibliothèques. Ensuite, nous examinerons et comparerons leurs capacités de reconnaissance et d'extraction de texte à l'aide d'un exemple de code source produit avec les deux bibliothèques. Enfin, nous comparerons les licences et les prix des bibliothèques.

Les bibliothèques que nous allons comparer dans cet article sont les suivantes :

  • IronOCR
  • Syncfusion Essential PDF

1. Syncfusion OCR

La bibliothèque Essential PDF de Syncfusion intègre une fonctionnalité OCR qui permet le traitement image-texte des images numérisées dans les documents PDF.

Le processeur OCR de Syncfusion peut fonctionner avec les versions 3 (3.02 et 3.05) et 4 de Tesseract. La bibliothèque peut être incluse dans les applications .NET Core et ASP.NET.

Les fonctionnalités de la fonctionnalité OCR de SyncFusion Essential PDF incluent :

  • Effectuer des tâches OCR sur des documents PDF. La classe OCRProcessor de la bibliothèque peut être utilisée pour effectuer de l'OCR sur des fichiers PDF. Il est basé sur le processeur de données Tesseract, connu pour être l'un des meilleurs processeurs OCR au monde.
  • Effectuez des tâches OCR sur des parties de documents PDF. Les utilisateurs peuvent effectuer l'OCR de pages ou d'espaces spécifiques d'un document PDF.
  • Effectuer des tâches d'OCR sur les images. Les utilisateurs peuvent extraire des données textuelles à partir d'images pour les importer dans d'autres applications.
  • Support multilingue. Le moteur Google Tesseract (et par extension Syncfusion) prend actuellement en charge plus de 60 langues et expérimente de nombreuses autres.
  • Bonne précision. En exploitant le moteur open source Tesseract de Google, Syncfusion Essential PDF atteint une très bonne précision de texte, effectuant l'OCR dans un délai raisonnable.

2. IronOCR

IronOCR est une bibliothèque logicielle C# qui permet aux développeurs de la plate-forme .NET de reconnaître et de lire du texte à partir d'images et de documents PDF. Il s'agit d'une bibliothèque d'OCR exclusivement .NET qui utilise le puissant moteur Tesseract. Les versions 3 à 5 de Tesseract fonctionnent dès le départ sur Windows, macOS, Linux, Azure, AWS, Lambda, Mono et Xamarin Mac.

IronOCR prend en charge plus de langues que tout autre moteur OCR disponible, avec 125 langues prises en charge (seul l'anglais est installé par défaut).

les développeurs .NET ont un contrôle total sur leurs documents et peuvent les modifier comme bon leur semble.

2.1. Caractéristiques de l'IronOCR

IronOCR offre une combinaison unique de capacités et de fonctions permettant d'intégrer, de signer, d'exporter, de lire des visuels et d'extraire des détails de photos, indépendamment du bagage technique de l'utilisateur ou de la sophistication du matériel.

2.1.1. Précision

Le SDK IronOCR surpasse les autres bibliothèques OCR en termes de précision, avec un taux de 99,8 %.

2.1.2. Correction des scans et des images de mauvaise qualité

La classe IronOCR offre un contrôle étendu aux développeurs C#. Ils fournissent à leurs développeurs une fonctionnalité OCR (images et PDF vers texte) et des performances ajustées pour chaque instance spécifique.

IronOCR comprend des options de configuration qui permettent à la bibliothèque de traiter des images dont la qualité n'est pas idéale. Voici quelques-unes des configurations disponibles : Nettoyer le bruit de fond, Améliorer le contraste, Améliorer la résolution, Langue, Stratégie, Tourner et redresser, Espace couleur, Détecter le texte blanc sur fond sombre, et Type d'image d'entrée.

2.1.3. Les langues

IronOCR prend en charge plus de 125 langues internationales.

2.1.4. Extraction de texte par OCR

Le Tesseract d'Iron peut lire plusieurs formats d'images ainsi que des fichiers PDF. Cette fonctionnalité n'est pas disponible avec les moteurs Tesseract standards et gratuits. Si vos scans sont de mauvaise qualité, l'entrée OCR vous permet de fixer automatiquement les attributs nécessaires.

2.1.5. Filtres d'optimisation d'image

La classe OCRInput permet aux programmeurs C# de contrôler finement les entrées. Les images sont ensuite prétraitées par les développeurs afin de gagner en rapidité et en précision. Il n'est donc plus nécessaire d'utiliser les scripts Photoshop Batch ou ImageMagick pour préparer les photographies avant le traitement OCR.

2.1.6. Région OCR d'une image

IronOCR permet à ses utilisateurs finaux d'effectuer l'OCR sur des zones spécifiques d'une image.

2.1.7. Classe OCRResult

IronOCR renvoie un objet de résultat avancé pour chaque page qu'il scanne à l'aide de Tesseract 3,4 ou 5. Cet objet contient des données de localisation, des images, du texte, une confiance statistique, des choix de symboles alternatifs, des noms de polices, des décorations de tailles de polices, des graisses de polices et une position pour chacun des éléments suivants :

  • Pages
  • Paragraphes
  • Lignes de texte
  • Mots
  • Personnages individuels
  • Codes à barres

2.1.8. Plusieurs langues dans un même document

IronOCR permet aux développeurs d'utiliser plusieurs langues dans un seul document. Cette capacité est extrêmement bénéfique pour les fournisseurs de services .NET.

3. Démarrer un nouveau projet dans Visual Studio

Dans cet article, nous utiliserons une nouvelle application console Visual Studio pour démontrer les capacités de traitement OCR d'IronOCR et de Syncfusion Essential PDF.

Ouvrez le logiciel Visual Studio, allez dans le menu fichier et sélectionnez New Project. Ensuite, sélectionnez Application Console.

Saisissez le nom du projet et sélectionnez le chemin d'accès dans la zone de texte appropriée. Cliquez ensuite sur le bouton de création, puis sélectionnez le Framework .NET requis, comme dans la capture d'écran ci-dessous :

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 1

Le projet Visual Studio va maintenant générer la structure de la nouvelle application console. Le fichier program.cs sera ouvert à la fin de l'opération.

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 2

Nous allons maintenant ajouter les deux bibliothèques au projet.

4. Installer la bibliothèque IronOCR

La bibliothèque IronOCR peut être téléchargée et installée de quatre façons. Il s'agit de

  1. Utilisation du gestionnaire de paquets NuGet de Visual Studio

  2. Téléchargement direct depuis la page web de NuGet.

  3. Téléchargement direct depuis la page web de l'IronOCR.

  4. Utilisation de la ligne de commande de Visual Studio.

4.1. Utilisation du gestionnaire NuGet de Visual Studio

Vous pouvez intégrer IronOCR dans un projet C# à l'aide du gestionnaire de paquets NuGet de Visual Studio.

Accédez à l'interface graphique du gestionnaire de packages NuGet en cliquant sur Outils > Gestionnaire de packages NuGet > Gérer les packages NuGet pour les solutions...

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 3

Une nouvelle fenêtre apparaît alors. Recherchez IronOCR et installez le paquet dans le projet.

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 4

Des packs de langues supplémentaires pour IronOCR peuvent également être installés en utilisant la même méthode que celle décrite ci-dessus.

4.2. Téléchargement direct depuis la page web de NuGet

IronOCR peut être téléchargé directement depuis le site web de NuGet en suivant ces instructions :

  1. Accédez à la [page de la galerie NuGet d'IronPDF](https://www.nuget.org/packages/IronOCR/" target="_blank" rel="nofollow noopener noreferrer)

  2. Sélectionnez l'option de téléchargement dans le menu de droite.

  3. Double-cliquez sur le paquet téléchargé. Il sera installé automatiquement.

4.3. Téléchargement direct à partir de la page web de l'IronOCR

Les développeurs peuvent télécharger la bibliothèque depuis le site web d'IronOCR et l'ajouter comme référence de projet.

Suivez les instructions ci-dessous pour ajouter la bibliothèque en tant que référence dans Visual Studio.

  1. Cliquez avec le bouton droit de la souris sur le projet dans la fenêtre de la solution.

  2. Sélectionnez ensuite Ajouter une référence de projet et recherchez l'emplacement de la référence téléchargée.

  3. Cliquez ensuite sur OK pour ajouter la référence.

4.4. Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, allez à Outils > Gestionnaire de packages NuGet > Console du gestionnaire de packages

  2. Saisissez la ligne suivante dans l'onglet de la console du gestionnaire de paquets :

  3. Installer le paquet IronOCR
    Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 5

    Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.

    Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 6

5. Installer la bibliothèque Syncfusion Essential PDF OCR

Syncfsion Essential PDF peut être installé de trois manières différentes.

  1. Utilisation du gestionnaire de paquets NuGet de Visual Studio

  2. Téléchargement direct depuis la page web de NuGet.

  3. Utilisation de la ligne de commande de Visual Studio.

5.1. Utilisation du gestionnaire NuGet de Visual Studio

Comme pour IronOCR, les développeurs peuvent également installer la bibliothèque OCR de SyncFusion à l'aide du gestionnaire de paquets NuGet de Visual Studio.

Accédez au Gestionnaire de packages comme précédemment en cliquant sur Outils > Gestionnaire de packages NuGet > Gérer les packages NuGet pour les solutions...

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 7

Recherchez SyncFusion OCR et installez le package approprié (devrait être Syncfusion.PDF.OCR.Net.Core)

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 8

Des packs linguistiques supplémentaires pour SyncFusion Essential PDF OCR peuvent être téléchargés depuis [GitHub](https://github.com/tesseract-ocr/tessdata" target="_blank" rel="nofollow noopener noreferrer).

5.2. Téléchargement direct depuis la page web de NuGet

Syncfusion Essential PDF OCR peut être téléchargé directement depuis le site NuGet en suivant ces instructions :

  1. Accédez à la [page de la galerie NuGet](https://www.nuget.org/packages/Syncfusion.PDF.OCR.Net.Core" target="_blank" rel="nofollow noopener noreferrer) du package.

  2. Sélectionnez l'option de téléchargement dans le menu de droite.

  3. Double-cliquez sur le paquet téléchargé. Il sera installé automatiquement.

  4. Ensuite, rechargez la solution et commencez à l'utiliser dans le projet.

5.3. Utilisation de la ligne de commande de Visual Studio

  1. Dans Visual Studio, allez à Outils > Gestionnaire de packages NuGet > Console du gestionnaire de packages

  2. Saisissez la ligne suivante dans l'onglet de la console du gestionnaire de paquets :
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 9

Le paquet sera alors téléchargé/installé dans le projet en cours et sera prêt à être utilisé.

6. Effectuer une reconnaissance optique de caractères (OCR) sur un document PDF

IronOCR et Syncfusion OCR sont tous deux capables d'effectuer l'OCR sur des documents PDF. Nous verrons ici comment les deux peuvent être utilisés dans Visual Studio.

6.1. Extraction de texte PDF OCR à l'aide d'IronOCR

Avec seulement quelques lignes de code, les développeurs peuvent effectuer l'OCR sur un PDF entier ou sur des pages/parties spécifiques d'un PDF. Prenons l'exemple de l'extrait de code ci-dessous.

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

6.2. PDF OCR Extraction de texte avec Syncfusion Essential PDF OCR

Vous pouvez utiliser la classe OCRProcessor pour effectuer l'OCR sur des documents PDF ainsi que sur des régions d'un document. Examinez l'exemple de code ci-dessous pour en comprendre le contexte.

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
$vbLabelText   $csharpLabel

7. Effectuer l'OCR sur des images

Ces deux bibliothèques permettent d'effectuer une reconnaissance optique de caractères sur des images au sein d'une application C#.NET et .NET Core.

7.1. Effectuer l'OCR sur des images en utilisant IronOCR

IronOCR est unique dans sa capacité à détecter et à lire automatiquement du texte à partir d'images scannées imparfaites avec seulement deux lignes de code.

using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
$vbLabelText   $csharpLabel

Entrée OCR Image

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 10

OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode

7.2. Effectuer l'OCR sur l'image en utilisant le Syncfusion Essential PDF OCR Processor

Syncfusion Essential PDF est capable d'extraire le texte des images avec une grande précision.

using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
	Using Syncfusion.Pdf.Parsing
	'loading the input image
	Dim image As New Bitmap("11111.jpeg")
	'Set OCR language to process
	processor.Settings.Language = Languages.English
	'Process OCR by providing the bitmap image, data dictionary and language
	Dim ocrText As String= processor.PerformOCR(image, "TessData\")
	End Using
End Using
$vbLabelText   $csharpLabel

Image d'entrée OCR

Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 11



FORMULAIRE DE SORTIE OCR IMAGE

OCR Outpu

Sortie de données simple :

+ NET Chaînes de texte

 Dee eT Nd

 tC eke ass

 Biren)

 Soja

 Seg

 ors

 eae

 eed

 TLC

 érès

 Smt d

 Voir "amr"

 etd ieot
``

## 8. Licences

L'utilisation d'IronOCR et de Syncfusion Essential PDF nécessite des licences logicielles.

### 8.1. Licence IronOCR

IronOCR dispose d'une licence de développement gratuite pour les projets personnels et non commerciaux.

IronOCR propose une structure de prix distincte pour les licences commerciales. Le forfait Lite commence à $749 sans coûts supplémentaires. Toutes les licences incluent une garantie de remboursement de 30 jours, un an de support logiciel et de mises à jour, le développement, les tests, la mise en scène, la validité de production, et une licence perpétuelle (achat unique). Découvrez plus d'informations sur la structure tarifaire complète et les informations sur les licences d'IronOCR sur [cette page](/csharp/ocr/licensing/).

Moyennant une redevance unique de 1599 dollars, vous pouvez obtenir une redistribution libre de droits des produits SaaS et OEM.
<div class="content-img-align-center">
    <img src="/static-assets/ocr/blog/syncfusion-ocr-alternatives/syncfusion-ocr-alternatives-12.webp" alt="Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 12" class="img-responsive add-shadow" />
    <p class="content__image-caption"></p>
</div>

### 8.2. Licence Syncfusion Essential PDF

Syncfusion Essential PDF propose trois types de licences pour les développeurs, mais n'offre pas de couverture SaaS et OEM.
- **Licence Communautaire.** La licence communautaire est gratuite pour les développeurs et les petites entreprises comptant jusqu'à 5 développeurs. Il comprend également une assistance en direct.
- **Licence de détail.** La licence de détail est une licence annuelle qui doit être achetée séparément pour chaque développeur d'une organisation. Les licences au détail commencent à partir de 995 $ par an et par développeur.
- **Unlimited License.** Cette option offre des licences pour l'ensemble d'une organisation sur une base annuelle, mais à un prix inférieur.

 Consultez toute la structure de licence pour Syncfusion Essential PDF (et pour d'autres composants Syncfusion) sur la [page de licence du produit](https://www.syncfusion.com/sales/products" target="_blank" rel="nofollow noopener noreferrer).
<div class="content-img-align-center">
    <img src="/static-assets/ocr/blog/syncfusion-ocr-alternatives/syncfusion-ocr-alternatives-13.webp" alt="Comparaison entre IronOCR et SyncFusion Essential PDF OCR, Figure 13" class="img-responsive add-shadow" />
    <p class="content__image-caption"></p>
</div>

## 9. Conclusion

IronOCR prend en charge environ 125 langues mondiales au total. Ses capacités de traitement comprennent : la possibilité d'effectuer une reconnaissance optique de caractères (OCR) sur des parties d'un document PDF ou d'une image, la possibilité d'extraire du texte à partir de PDF et de photos, et la possibilité de corriger une image de mauvaise qualité, parmi beaucoup d'autres. IronOCR donne la priorité à la rapidité et à la précision. Son taux de précision de 99,8 % est supérieur à celui de toutes les autres bibliothèques d'OCR basées sur Tesseract disponibles sur le marché. IronOCR fonctionne dès sa sortie de l'emballage, sans qu'il soit nécessaire de régler les performances ou de prétraiter les images.

Syncfusion Essential PDF OCR utilise également le moteur open-source tesseract de Google. Il peut effectuer l'OCR sur des documents entiers ou des parties spécifiques de documents. La bibliothèque OCR de Syncfusion prend en charge plus de 60 langues internationales.

Les licences IronOCR sont valables à vie, avec une assistance illimitée et une couverture SaaS et OEM. D'autre part, Syncfusion Essential PDF OCR propose des licences annuelles. Le prix de IronOCR commence à partir de $749, et le prix de Syncfusion commence à partir de 995 $ par an.

Obtenez IronOCR ainsi que quatre autres produits Iron Software à un prix réduit en achetant l'[Iron Suite](/suite/) complète. Les produits inclus dans l'Iron Suite comprennent :

1. IronPDF

2. IronOCR

3. IronXL

4. IronBarcode

5. IronWebscraper

 La [page de licence](/csharp/ocr/licensing/) d'Iron Software contient des informations plus détaillées sur les prix et les licences pour les cinq produits ci-dessus.
Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT
Comparaison entre IronOCR et Aspose.OCR
SUIVANT >
Comparaison entre IronOCR et AWS Textract OCR