Passer au contenu du pied de page
COMPARER à D'AUTRES COMPOSANTS

IronOcr vs Azure OCR PDF : Quelle solution extrait le mieux le texte ?

IronOCR vs Azure OCR PDF : Quelle solution extrait le mieux le texte ? (Image 1 - IronOCR vs Azure OCR PDF)

Lorsque les développeurs ont besoin d'extraire du texte à partir de documents PDF et d'images, deux options se distinguent particulièrement : Azure AI Document Intelligence de Microsoft, basé sur le cloud, et la bibliothèque .NET locale d'IronOCR. Les deux offrent des capacités de reconnaissance optique de caractères (OCR), mais elles diffèrent considérablement en termes de modèle de déploiement, de structure tarifaire et de facilité de mise en œuvre.

IronOCR traite les documents directement sur votre serveur ou poste de travail – sans compte cloud, sans frais par page et sans que vos données ne quittent votre environnement. Azure Document Intelligence envoie vos fichiers vers l'infrastructure cloud de Microsoft, facture par page analysée et nécessite une connexion Internet active. Cette comparaison examine comment chaque solution gère les fichiers PDF et TIFF, crée des documents PDF consultables, prend en charge plusieurs langues et s'intègre dans un flux de travail de développement .NET .

Commencez par tester gratuitement IronOCR et ses fonctionnalités dans vos propres projets.

Comment comparer ces deux solutions OCR en un coup d'œil ?

Comparaison des fonctionnalités : IronOCR vs Azure Document Intelligence
Caractéristique IronOCR Azure Document Intelligence
Déploiement Machine locale / sur site API basée sur le cloud
Internet requis Non Oui
Modèle de tarification Licence perpétuelle unique Paiement à la page (1,50 $ à 10 $ par 1 000 pages)
Sortie PDF consultable Appel de méthode unique intégré Nécessite des bibliothèques supplémentaires
Langues prises en charge Plus de 125 langues Plus de 100 langues
Formats de fichiers PDF, TIFF, PNG, JPG, BMP, GIF PDF, TIFF, JPEG, PNG, BMP
Niveau gratuit essai de 30 jours 500 pages/mois
Confidentialité des données Entièrement local – les données ne quittent jamais le serveur Données envoyées au cloud Microsoft

Quelles sont les principales différences entre le traitement OCR en nuage et le traitement OCR local ?

La distinction fondamentale réside dans l'endroit où l'extraction de texte a lieu. Azure AI Document Intelligence (anciennement Azure Form Recognizer) traite les documents sur l'infrastructure cloud de Microsoft. Les développeurs téléchargent des fichiers sur le portail Azure ou les envoient via l'API Read, et le service analyse à distance les images et les documents numérisés. Cette approche nécessite une connexion Internet, des identifiants Azure actifs et engendre des coûts par page qui évoluent en fonction du volume de vos documents.

IronOCR fonctionne entièrement sur votre machine locale ou votre serveur, ce qui le rend parfaitement adapté aux organisations ayant des exigences en matière de confidentialité des données ou aux environnements isolés du réseau. La bibliothèque est basée sur Tesseract OCR — l'un des moteurs OCR open-source les plus utilisés — et y ajoute une API .NET soignée. La bibliothèque fonctionne sans appels d'API externes, offrant aux développeurs un contrôle total sur leur processus de traitement de documents. Pour les applications de bureau, les applications web ou les traitements par lots, le traitement local élimine la latence réseau et la dépendance à la disponibilité de services tiers.

Les services Azure Vision et Azure Form font tous deux partie de l'ensemble plus vaste des services d'IA Azure. Les fonctionnalités de vision artificielle d'Azure permettent d'analyser des images à des fins générales, tandis que Document Intelligence gère spécifiquement l'extraction de texte à partir de documents contenant des langues mixtes et des mises en page complexes. Les organisations déjà fortement investies dans l'écosystème Azure peuvent préférer cette intégration, mais celle-ci engendre des coûts continus et une dépendance au cloud.

L'architecture d'IronOCR est idéale pour les situations où la prévisibilité des coûts et la souveraineté des données sont primordiales. Une licence perpétuelle unique couvre le traitement illimité des pages, ce qui rend les applications à fort volume de données nettement plus rentables sur le long terme qu'un service cloud facturé à la page.

Comment installer IronOCR via NuGet?

Avant d'écrire du code OCR, vous devez ajouter le package NuGet IronOCR à votre projet .NET . La méthode la plus simple utilise la console du gestionnaire de packages NuGet :

Install-Package IronOcr
Install-Package IronOcr
SHELL

Vous pouvez également utiliser l'interface de ligne de commande .NET :

dotnet add package IronOcr
dotnet add package IronOcr
SHELL

Une fois l'installation terminée, définissez votre clé de licence avant d'utiliser les méthodes IronOCR . Vous pouvez le faire dans le code de démarrage de votre application :

IronOcr.License.LicenseKey = "YOUR-LICENSE-KEY";
IronOcr.License.LicenseKey = "YOUR-LICENSE-KEY";
$vbLabelText   $csharpLabel

Pendant la phase de développement, vous pouvez utiliser l' essai gratuit de 30 jours sans saisir de clé. Le filigrane d'essai est présent, mais le système est par ailleurs parfaitement fonctionnel pour l'évaluation.

Pour Azure Document Intelligence, vous avez besoin d'un abonnement Azure actif, d'une ressource Document Intelligence créée dans le portail Azure et du package NuGet Azure.AI.FormRecognizer installé séparément. Vous devez également stocker et gérer en toute sécurité les URL des points de terminaison et les clés API dans la configuration de votre application.

Comment extraire du texte à partir de fichiers PDF et TIFF?

Extraction de texte avec IronOCR

IronOCR fournit une API directe pour extraire du texte à partir de différents formats de fichiers. Le code suivant illustre le traitement d'un PDF numérisé à l'aide d'instructions de niveau supérieur dans .NET 10 :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput("document.pdf");
var result = ocr.Read(input);

Console.WriteLine($"Pages processed: {result.Pages.Length}");
Console.WriteLine(result.Text);
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput("document.pdf");
var result = ocr.Read(input);

Console.WriteLine($"Pages processed: {result.Pages.Length}");
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

Ce programme charge un fichier PDF, traite toutes les pages et affiche le texte extrait. La classe OcrInput prend en charge les documents PDF, les fichiers TIFF multipages et les formats d'image standard, notamment PNG, JPEG, JPG et BMP. Les dimensions et la qualité des images sont gérées automatiquement, et la bibliothèque applique un prétraitement intégré pour améliorer la précision des numérisations de faible qualité.

Pour les fichiers TIFF en particulier — courants dans les flux de travail d'archivage de documents — IronOCR gère nativement les images TIFF multi-images, en extrayant le texte de chaque image sans configuration supplémentaire :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput("archive-scan.tiff");
var result = ocr.Read(input);

foreach (var page in result.Pages)
{
    Console.WriteLine($"Frame {page.PageNumber}: {page.Text}");
}
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput("archive-scan.tiff");
var result = ocr.Read(input);

foreach (var page in result.Pages)
{
    Console.WriteLine($"Frame {page.PageNumber}: {page.Text}");
}
$vbLabelText   $csharpLabel

Sortie OCR

IronOCR vs Azure OCR PDF : Quelle solution extrait le mieux le texte ? : Image 2 - Sortie IronOCR

Vous pouvez également appliquer des filtres d'image avant la lecture pour améliorer la précision des numérisations difficiles : le redressement, le débruitage, la binarisation et la correction du contraste sont tous disponibles via l'API OcrInput.

Extraire du texte avec Azure Document Intelligence

Pour Azure Document Intelligence, vous devez d'abord créer une ressource dans le portail Azure, configurer les informations d'identification d'authentification et installer le kit de développement logiciel Azure (SDK). L'appel à l'API Read utilise des opérations asynchrones :

using Azure;
using Azure.AI.FormRecognizer.DocumentAnalysis;

var client = new DocumentAnalysisClient(
    new Uri(endpoint),
    new AzureKeyCredential(key));

using var stream = File.OpenRead("document.pdf");
var operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed, "prebuilt-read", stream);

var result = operation.Value;
foreach (var page in result.Pages)
{
    foreach (var line in page.Lines)
    {
        Console.WriteLine(line.Content);
    }
}
using Azure;
using Azure.AI.FormRecognizer.DocumentAnalysis;

var client = new DocumentAnalysisClient(
    new Uri(endpoint),
    new AzureKeyCredential(key));

using var stream = File.OpenRead("document.pdf");
var operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed, "prebuilt-read", stream);

var result = operation.Value;
foreach (var page in result.Pages)
{
    foreach (var line in page.Lines)
    {
        Console.WriteLine(line.Content);
    }
}
$vbLabelText   $csharpLabel

La gestion des identifiants, le traitement des opérations asynchrones et le parcours de la structure des données de réponse ajoutent tous à la complexité. Toute interruption de réseau ou toute perturbation du service Azure peut entraîner l'échec de la tâche d'extraction, ce qui nécessite une logique de nouvelle tentative dans les applications de production.

Quelle solution permet de créer de meilleurs PDF consultables ?

La conversion des documents numérisés en PDF consultables est une exigence courante pour l'archivage de documents, la conformité légale et l'indexation pour la recherche en texte intégral. IronOCR offre cette fonctionnalité grâce à une méthode dédiée SaveAsSearchablePdf :

using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput("scanned.pdf");
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");

Console.WriteLine("Searchable PDF created successfully.");
using IronOcr;

var ocr = new IronTesseract();
using var input = new OcrInput("scanned.pdf");
var result = ocr.Read(input);
result.SaveAsSearchablePdf("searchable-output.pdf");

Console.WriteLine("Searchable PDF created successfully.");
$vbLabelText   $csharpLabel

Création d'un PDF consultable

IronOCR vs Azure OCR PDF : Quelle solution extrait le mieux le texte ? : Image 3 - PDF consultable créé avec IronOCR

Ce logiciel convertit tout PDF numérisé en un document entièrement consultable, permettant aux utilisateurs de rechercher, sélectionner et copier du texte. Le procédé préserve l'apparence visuelle du document original tout en y intégrant une couche de texte invisible issue des résultats de la reconnaissance optique de caractères (OCR). Il s'agit d'un appel de méthode unique qui gère tout en interne.

Azure Document Intelligence ne permet pas la création directe de PDF consultables. Pour obtenir le même résultat avec Azure, les développeurs doivent extraire les données textuelles de la réponse de l'API, puis utiliser une bibliothèque PDF distincte (telle que iTextSharp ou PdfSharp) pour reconstruire le document avec la couche de texte intégrée. Cela ajoute des dépendances supplémentaires, du temps de développement et une charge de maintenance à votre projet.

Pour les organisations qui convertissent régulièrement de gros volumes de documents numérisés (factures, contrats, archives), l'approche à méthode unique d' IronOCR réduit considérablement les efforts d'intégration.

Comment les prix se comparent-ils pour le traitement des documents ?

La structure tarifaire est l'une des différences pratiques les plus importantes entre les deux solutions. Le modèle de paiement à la page d'Azure facture en fonction du modèle prédéfini spécifique utilisé. Selon la page officielle de tarification d'Azure de Microsoft , l'API Read coûte environ 1,50 $ pour 1 000 pages, tandis que les modèles prédéfinis pour les formulaires et les factures peuvent coûter jusqu'à 10 $ pour 1 000 pages. Les utilisateurs à volume élevé peuvent négocier des niveaux de tarification basés sur l'engagement, mais les coûts s'accumulent en continu tant que l'application fonctionne.

Pour une équipe de développement traitant 100 000 pages par mois (un volume modeste pour les flux de travail documentaires Enterprise ), les frais Azure pourraient varier de 150 $ à 1 000 $ par mois, indéfiniment.

IronOCR propose des licences perpétuelles à partir d'un paiement unique pour un seul développeur. Cet investissement unique couvre le traitement illimité des pages sans frais supplémentaires. Pour connaître les tarifs actuels complets, veuillez consulter la page de licences IronOCR . Pour les applications analysant des milliers de documents par mois, le seuil de rentabilité par rapport aux frais par page d'Azure est généralement atteint dans les premiers mois d'exploitation.

Les deux solutions prennent en charge la reconnaissance optique de caractères pour les textes imprimés et manuscrits dans de nombreuses langues. IronOCR propose 125 packs de langues , y compris la prise en charge de plusieurs langues au sein d'un même document. Vous pouvez télécharger les fichiers de données linguistiques individuellement ou par lots, selon les besoins de votre application.

Comment fonctionne l'assistance linguistique et multilingue ?

Configuration des langues dans IronOCR

IronOCR prend en charge plus de 125 langues grâce aux fichiers de données linguistiques Tesseract. Vous spécifiez la langue -- ou plusieurs langues -- lors de la configuration de l'instance IronTesseract :

using IronOcr;

var ocr = new IronTesseract();
ocr.Language = OcrLanguage.EnglishBest;

// For multi-language documents:
ocr.AddSecondaryLanguage(OcrLanguage.French);

using var input = new OcrInput("multilingual-doc.pdf");
var result = ocr.Read(input);
Console.WriteLine(result.Text);
using IronOcr;

var ocr = new IronTesseract();
ocr.Language = OcrLanguage.EnglishBest;

// For multi-language documents:
ocr.AddSecondaryLanguage(OcrLanguage.French);

using var input = new OcrInput("multilingual-doc.pdf");
var result = ocr.Read(input);
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

Les modules linguistiques sont installés via des packages NuGet distincts -- par exemple, IronOcr.Languages.French pour la prise en charge de la langue française. Cela permet de conserver une bibliothèque de base légère tout en vous permettant d'ajouter uniquement les langages nécessaires à votre application.

La documentation relative aux langues fournit une liste complète des modules linguistiques disponibles et leurs noms de packages NuGet correspondants. Pour les documents comportant des écritures mixtes ou un contenu en langue inconnue, IronOCR prend également en charge les configurations de détection automatique de la langue.

Prise en charge linguistique dans Azure Document Intelligence

L'API Read d'Azure Document Intelligence prend en charge plus de 100 langues imprimées et un sous-ensemble de celles-ci pour la reconnaissance de l'écriture manuscrite. La détection de la langue s'effectue automatiquement côté cloud ; les développeurs n'ont généralement pas besoin de spécifier explicitement les langues. Cette détection automatique est pratique, mais elle augmente le coût par page et nécessite que tous les documents transitent par les serveurs de Microsoft.

Pour les documents contenant des informations sensibles (dossiers financiers, données de santé, contrats juridiques), l'envoi de contenu vers un point de terminaison cloud soulève des considérations de gouvernance des données que le traitement local permet d'éviter totalement.

Comment gérez-vous le traitement par lots de documents ?

Traitement par lots avec IronOCR

Pour les flux de travail à volume élevé, IronOCR gère efficacement le traitement par lots grâce au parallélisme standard .NET . Comme la bibliothèque fonctionne localement, vous pouvez exécuter plusieurs tâches OCR en parallèle sans limite de débit ni limitation de l'API :

using IronOcr;
using System.Collections.Generic;
using System.Threading.Tasks;

var pdfFiles = Directory.GetFiles("input-folder", "*.pdf");
var results = new List<string>();

await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
{
    var ocr = new IronTesseract();
    using var input = new OcrInput(file);
    var result = ocr.Read(input);
    lock (results) { results.Add(result.Text); }
});

Console.WriteLine($"Processed {results.Count} documents.");
using IronOcr;
using System.Collections.Generic;
using System.Threading.Tasks;

var pdfFiles = Directory.GetFiles("input-folder", "*.pdf");
var results = new List<string>();

await Parallel.ForEachAsync(pdfFiles, async (file, ct) =>
{
    var ocr = new IronTesseract();
    using var input = new OcrInput(file);
    var result = ocr.Read(input);
    lock (results) { results.Add(result.Text); }
});

Console.WriteLine($"Processed {results.Count} documents.");
$vbLabelText   $csharpLabel

Ce modèle traite simultanément un dossier entier de fichiers PDF, limité uniquement par les ressources du processeur et de la mémoire de votre machine, et non par les limites de débit de l'API ou la bande passante du réseau.

Pour les scénarios de traitement par lots plus avancés, les guides pratiques IronOCR couvrent les modèles de traitement en masse, le suivi des progrès et la gestion des résultats.

Traitement par lots avec Azure Document Intelligence

Azure Document Intelligence prend en charge le traitement par lots, mais chaque document nécessite un appel d'API individuel ou l'utilisation de l'API Batch Analyze Document. Les tâches à volume élevé sont soumises aux limites de débit d'Azure, généralement 15 requêtes par seconde pour le niveau standard. Les organisations qui traitent quotidiennement des dizaines de milliers de documents doivent mettre en œuvre des systèmes de mise en file d'attente, de logique de nouvelle tentative et de gestion de la limitation du débit pour rester dans les limites de service.

Des formules tarifaires basées sur l'engagement sont disponibles pour les charges de travail importantes et prévisibles, mais elles nécessitent des accords d'engagement initiaux et sont soumises aux conditions de service de Microsoft.

Quelles sont vos prochaines étapes ?

IronOCR offre aux développeurs .NET une solution simple pour extraire le texte de documents locaux avec précision, sans dépendance au cloud ni frais par page. Pour les équipes qui développent des applications traitant des fichiers PDF, TIFF ou des images numérisées, le modèle de licence perpétuelle et la création de PDF consultables par méthode unique réduisent à la fois les coûts et la complexité d'intégration par rapport à un service OCR basé sur le cloud.

Commencez à explorer les fonctionnalités d'IronOCR :

Azure Document Intelligence reste pertinent pour les organisations qui ont déjà investi dans l'écosystème de Microsoft ou qui ont besoin de modèles de formulaires préconstruits spécifiques. Cependant, pour les tâches OCR simples, la création de PDF consultables et des coûts opérationnels prévisibles, le modèle de traitement local et l'API conviviale d'IronOCR en font le choix le plus judicieux pour les projets .NET .

Veuillez noterMicrosoft et Azure sont des marques déposées de Microsoft Corporation. Ce site n'est pas affilié à Microsoft, ni approuvé par elle, ni sponsorisé par elle. Tous les noms de produits, logos et marques sont la propriété de leurs propriétaires respectifs. Les comparaisons sont à titre informatif uniquement et reflètent les informations publiquement disponibles au moment de l'écriture.

Questions Fréquemment Posées

Quelles sont les principales différences entre Azure OCR PDF et IronOcr ?

Les principales différences résident dans les modèles de tarification, la facilité d'intégration et les caractéristiques spécifiques telles que la prise en charge des langues et la précision de l'extraction de texte.

Comment IronOCR gère-t-il l'extraction de texte dans les PDF par rapport à Azure OCR PDF ?

IronOcr offre des fonctionnalités robustes pour l'extraction de texte à partir de PDF, notamment un prétraitement avancé des images et la prise en charge de différentes langues, ce qui peut permettre d'obtenir des résultats plus précis par rapport à Azure OCR PDF.

Existe-t-il des exemples de code disponibles pour l'utilisation d'IronOCR ?

Oui, IronOCR fournit des exemples de code complets en C# pour aider les développeurs à intégrer facilement des fonctionnalités d'OCR dans leurs applications .NET.

Quels sont les modèles de tarification pour Azure OCR PDF et IronOcr ?

Azure OCR PDF utilise généralement un modèle de tarification à la carte, tandis qu'IronOCR propose des options de licence flexibles adaptées à différentes échelles de projet.

IronOCR peut-il créer des PDF consultables ?

Oui, IronOCR est capable de créer des PDF avec possibilité de recherche, ce qui facilite la localisation du texte dans les documents.

Quelle solution d'OCR offre une meilleure prise en charge des langues ?

IronOcr offre une prise en charge étendue des langues, y compris la reconnaissance de plusieurs langues, ce qui peut être bénéfique pour divers besoins d'extraction de texte par rapport à Azure OCR PDF.

IronOCR est-il facile à intégrer dans les applications .NET ?

IronOCR est conçu pour une intégration transparente dans les applications .NET, avec des instructions d'installation et d'utilisation simples.

Comment la précision de l'extraction de texte se compare-t-elle entre Azure OCR PDF et IronOcr ?

IronOcr est connu pour sa grande précision dans l'extraction de texte, grâce à ses capacités avancées de traitement d'image, qui peuvent surpasser Azure OCR PDF dans certains scénarios.

IronOCR offre-t-il une assistance aux développeurs ?

Oui, IronOCR fournit une excellente assistance aux développeurs, notamment une documentation détaillée et une assistance technique réactive.

Quels sont les avantages de l'utilisation d'IronOcr par rapport à Azure OCR PDF ?

IronOCR offre des avantages tels que des fonctions d'extraction de texte avancées, une meilleure intégration avec .NET, une prise en charge linguistique complète et des options tarifaires compétitives.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite

Équipe de soutien Iron

Nous sommes en ligne 24 heures sur 24, 5 jours sur 7.
Chat
Email
Appelez-moi