OUTILS OCR

OCR C# Open Source (Liste pour les développeurs)

Publié juin 20, 2023
Partager:

OCR(Reconnaissance optique de caractères) est une technologie qui change la donne et qui transforme complètement l'utilisation des documents numérisés dans le monde numérique d'aujourd'hui. Il permet aux ordinateurs de reconnaître et d'extraire du texte à partir d'une variété de sources, y compris les documents PDF scannés, ce qui nous permet d'éditer et d'interagir efficacement avec les documents PDF. L'un des systèmes de reconnaissance optique de caractères(OCR) est Adobe Acrobat, qui vous permet d'extraire rapidement le texte des documents numérisés et de les convertir en PDF modifiables et en PDF avec images consultables.

Les développeurs peuvent accéder à des outils et des API robustes qui font appel à des algorithmes de pointe et à des approches d'apprentissage automatique en utilisant des bibliothèques d'OCR telles que Tesseract et IronOCR. Ces bibliothèques permettent une reconnaissance précise du texte, ce qui simplifie la gestion et l'extraction d'informations utiles à partir de documents déjà numérisés et de nouveaux documents. L'OCR permet une analyse transparente du contenu et aide les entreprises et les particuliers à maximiser leur productivité en tirant le meilleur parti de leurs documents et images numérisés. L'OCR est un outil essentiel de la technologie actuelle, qu'il soit utilisé pour numériser des documents papier, extraire des données de factures ou simplement améliorer l'accessibilité des documents.

Tesseract

Le moteur OCR open-source le plus connu s'appelle Tesseract et a été initialement créé par Hewlett-Packard. Depuis 2006, Google soutient ce projet de logiciel libre, qui est publié sous la licence Apache.

Le moteur d'OCR Tesseract est l'un des systèmes libres et gratuits les plus précis. Tesseract prend désormais en charge 116 langues avec sa version stable la plus récente, la 4.1.1, qui est basée sur LSTM.

Tesseract nécessite l'appui d'une interface graphique distincte(interface utilisateur graphique) lorsqu'il est exécuté à partir d'une interface de ligne de commande, car il ne dispose pas de sa propre interface intégrée. Il peut apprendre de nouvelles informations à l'aide de ses réseaux neuronaux et dispose d'un pipeline de prétraitement d'image avancé. La technique la plus efficace pour ajouter des capacités d'OCR à votre application .NET est le SDK .NET de Tesseract, qui est l'une des meilleures solutions pour fournir des capacités de reconnaissance de texte. Même si Tesseract est sans aucun doute la meilleure bibliothèque d'OCR actuellement sur le marché.

GOCR

La licence publique GNU a été utilisée pour créer l'OCR(Reconnaissance optique de caractères) connu sous le nom de GOCR. Il retransforme les fichiers texte en images numérisées de documents. Après avoir lancé le programme et dirigé l'équipe de développement sur SF, Joerg Schulenburg continue de s'occuper de l'ensemble à un niveau élevé(très) base de temps réduite aujourd'hui.

Comme GOCR peut être utilisé avec plusieurs interfaces, il est relativement simple de le porter à d'autres systèmes d'exploitation, applications de réseau et architectures. Il peut lire un large éventail de types de fichiers d'images et, jusqu'en 2010, sa qualité s'est constamment améliorée.

Selon le GOCR, il peut gérer des polices sans sérif en colonne unique d'une hauteur de 20 à 60 pixels. Il signale des difficultés avec les textes écrits dans des alphabets autres que le latin, les polices à empattement, les lettres qui se chevauchent, les textes manuscrits, les différentes polices de caractères, les photos bruyantes et les angles d'inclinaison excessifs. GOCR est également capable de traduire les codes-barres.

CuneiForm

CuneiForm, une technologie libre et gratuite, est désormais également connue sous le nom de "Cognitive OpenOCR" Il dispose d'une sortie intégrée et d'une base de données. Il couvre 23 langues distinctes et effectue également des tâches telles que la numérisation de formats de texte, l'analyse de la mise en page de documents et l'identification.

Cognitive Technologies a développé les licences d'OpenOCR, qui sont freeware et BSD. Bien qu'il prenne en charge l'utilisation multiplateforme, les utilisateurs de Linux ne disposent pas d'une interface graphique.

Pour simplifier le travail de reconnaissance des caractères dans toutes les applications Dot NET Framework 2.0 ou ultérieures, la bibliothèque enveloppante Puma Dot NET est utilisée. Il effectue une vérification du dictionnaire pendant le traitement des données afin d'améliorer la qualité de la reconnaissance.

CuneiForm est une technologie conçue pour convertir automatiquement ou semi-automatiquement des copies électroniques de documents papier et de fichiers d'images en une forme éditable sans affecter la structure et les polices de caractères du document original. Le système se compose de deux parties permettant de traiter les documents électroniques par lots et un document à la fois. En outre, le système prend en charge une combinaison de russe et d'anglais. Seule la branche créée par Andrei Borovsky en 2009 soutient la reconnaissance d'autres langues hybrides. Apprendre au système à reconnaître d'autres langues est un défi, car chaque langue est associée à un fichier de données dont la structure et le processus de création ne sont pas divulgués par les développeurs.

Kraken

Kraken a été développé pour résoudre les problèmes d'Ocropus sans affecter ses autres fonctionnalités. Il utilise sa bibliothèque de réseaux neuronaux CLSTM et tire parti de l'expérience précieuse acquise lors de projets antérieurs avec des données fraîches. Il nécessite l'utilisation de certaines bibliothèques externes pour fonctionner efficacement sur différentes plateformes. Grâce aux informations stockées, il peut faire des prévisions plus précises concernant les problèmes potentiels de validation des données. En outre, sa méthodologie de travail facilite le déploiement et la formation de nouveaux modèles.

A9T9

A9T9 est un logiciel OCR gratuit qui peut être utilisé pour extraire du texte de fichiers images et convertir des images et des documents PDF. Il fournit une interface utilisateur graphique(GUI) pour le moteur OCR Tesseract.

Le programme est facile à mettre en place. Plus important encore, il est entièrement gratuit et open-source. Il ne contient ni logiciel espion ni logiciel publicitaire.

Vous pouvez ouvrir un fichier PDF ou une image, et le contenu du fichier source s'affiche dans la fenêtre de gauche. Si votre document comporte plusieurs pages ou s'il s'agit d'un document multipage, vous pouvez utiliser les flèches situées en bas de la page pour naviguer entre les pages.

Pour lancer le processus d'OCR, il suffit de cliquer sur le bouton vert OCR, et le résultat s'affiche dans le deuxième volet de droite. Vous avez la possibilité d'enregistrer le texte de sortie sous forme de fichiers texte et de documents Word.

IronOCR

Contrairement à la bibliothèque Tesseract standard, IronOCR étend Tesseract et fournit une bibliothèque OCR native en C# avec une plus grande précision, de meilleures performances et une stabilité accrue. IronOCR peut être utilisé dans des programmes .NET et des sites Web pour extraire du texte à partir de PDF et d'images. Il prend en charge un large éventail de langues étrangères et peut générer du texte brut ou des données structurées. Il est capable de scanner des codes-barres et des images avec du texte intégré. La bibliothèque peut être utilisée dans des applications développées en .NET pour la console, le web, MVC et le bureau. L'équipe de développement offre une assistance directe dans le cadre du processus d'octroi de licences pour les déploiements commerciaux. IronOCR est compatible avec les dernières versions de Visual Studio.

Avantages de l'IronOCR

  • Utilisant le dernier moteur Tesseract 5, IronOCR est capable de lire des documents papier, des codes-barres et des codes QR à partir de divers fichiers images ou PDF. Ce logiciel simplifie l'intégration de l'OCR dans les applications de bureau, les consoles et les applications web.
  • IronOCR nous permet d'effectuer l'OCR, ce qui nous permet de convertir les PDF scannés en PDF consultables.
  • Outre les listes de mots et les langues personnalisées, IronOCR prend en charge 127 langues différentes dans le monde entier.
  • IronOCR peut scanner plus de 20 types différents de codes-barres et de codes QR.
  • IronOCR peut fournir des données en texte clair ainsi que des données de code-barres. Les développeurs peuvent récupérer tout le contenu pour l'introduire directement dans un système en utilisant un autre paradigme d'objet de données structurées. Cela inclut les titres structurés, les paragraphes, les lignes, les mots et les caractères dans les applications web.

    Vous trouverez ci-dessous l'exemple de code que nous utiliserons pour reconnaître le contenu textuel d'une image donnée et le convertir en texte.

var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
var Ocr = new IronTesseract();   
Ocr.Language = OcrLanguage.EnglishBest;
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5;
using (var Input = new OcrInput())      
{          
    Input.AddImage(@"Demo.png");         
    var R = Ocr.Read(Input);       
    Console.WriteLine(R.Text);        
    Console.ReadKey();          
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.EnglishBest
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract5
Using Input = New OcrInput()
	Input.AddImage("Demo.png")
	Dim R = Ocr.Read(Input)
	Console.WriteLine(R.Text)
	Console.ReadKey()
End Using
VB   C#

Dans l'extrait de code ci-dessus, nous développons une fonctionnalité en utilisant IronTesseract. Tout d'abord, nous instancions un nouvel objet OcrInput pour permettre l'ajout d'un ou plusieurs fichiers images. Lorsque l'on utilise la méthode Add de l'objet OcrInput, il peut être nécessaire de spécifier le chemin de l'image dans le code. Vous pouvez ajouter autant d'images que vous le souhaitez. En analysant les documents images et en extrayant les résultats de l'OCR, nous pouvons utiliser la fonctionnalité Read de l'objet que nous avons précédemment créé pour accéder aux images. Il a la capacité d'extraire du texte des images et de le convertir en une chaîne de caractères.

La sortie ci-dessous montre le texte extrait de l'image précédemment fournie, démontrant que le texte a été extrait avec succès de l'image.

OCR C# Open Source(Liste pour les développeurs) Figure 1 - Sortie

Voir ceciposte pour une instruction approfondie sur l'IronOCR.

Conclusion

Les outils open-source d'OCR nous permettent de créer nos propres programmes en utilisant leur code source. Toutefois, certains outils ne disposent pas d'une bibliothèque officielle ou d'une équipe dédiée pour fournir une assistance en cas de problèmes de codage. La documentation de Tesseract manque également d'exemples de code ou de tutoriels pour les scénarios d'utilisation courants, ce qui complique la compréhension du code et des bibliothèques pour les débutants.

IronOCR prend en charge divers projets .NET tels que .NET Framework Standard 2, .NET Framework 4.5 et .NET Core 2, 3 et 5. Il fonctionne également avec des technologies plus récentes comme Mono, Xamarin et Azure. En tirant parti des technologies IronOCR, nous pouvons améliorer les résultats de Tesseract et corriger les documents ou images scannés de manière inexacte. Le système complexe de dictionnaires Tesseract est géré par le paquet NuGet. Nous utilisons la bibliothèque d'OCR d'Iron pour développer un outil d'OCR.

Avec IronOCR, nous pouvons utiliser le programme sans aucune configuration supplémentaire, et il prend en charge les fichiers PDF, les fichiers TIFF à trames multiples et tous les formats d'image courants. Il offre également des capacités de reconnaissance de codes-barres, ce qui nous permet d'extraire des données de codes-barres et de lire des valeurs de codes-barres à partir d'images. IronOCR propose une édition de développement économique avec une version d'essai gratuite, et la licence à vie est incluse dans l'offre groupée IronOCR sans coût supplémentaire. L'offre groupée IronOCR permet de couvrir plusieurs plateformes avec un seul paiement. Pour plus d'informations sur la tarification d'IronOCR, veuillez vous référer au document suivantpage.

< PRÉCÉDENT
Meilleur OCR pour le japonais (liste mise à jour pour les développeurs)
SUIVANT >
Comment obtenir du texte à partir d'images à l'aide de Tesseract