Tesseract Ocr dans Windows (Tutoriel d'exemple de code)
Publié avril 7, 2022
Partager:
Qu'est-ce que Tesseract OCR ?
Tesseract est un moteur de reconnaissance optique de caractères qui peut être utilisé sur différents systèmes d'exploitation. Il s'agit d'un logiciel libre, publié sous la licence Apache. Dans ce guide, je vais vous présenter les étapes que j'ai suivies pour installer Tesseract sur ma machine Windows 10. La version majeure 5 est la version stable actuelle et a commencé avec la version 5.0. 0 le 30 novembre 2021.
Étape 1 : Installer Tesseract OCR dans Windows 10 en utilisant le fichier .exe :
Pour installer les données linguistiques : sudo port install tesseract -<langcode> ; Une liste de langcodes est disponible sur la page Homebrew de MacPorts Tesseract. La première étape de l'installation de Tesseract OCR pour Windows consiste à télécharger le programme d'installation .exe correspondant au système d'exploitation de votre machine
Étape 2 : Configuration de l'installation
Ensuite, nous devons configurer l'installation de Tesseract. Si vous êtes confiant et que vous ne souhaitez exécuter Tesseract OCR pour Windows qu'avec la langue par défaut, l'anglais, vous pouvez exécuter les écrans d'installation en sélectionnant toutes les options par défaut.
Langue de l'installateur
Il s'agit simplement de la langue des boîtes de dialogue et des informations d'aide. Si nous le souhaitons, nous pouvons exécuter Tesseract OCR pour Windows dans plusieurs langues :
Langue d'installation pour Tesseract OCR pour Windows
Tesseract OCR Setup
L'écran d'installation recommande de fermer toutes les autres applications avant de poursuivre l'installation.
L'écran d'installation de Tesseract OCR pour Windows.
Choisir l'emplacement de l'installation
Ensuite, nous allons choisir l'emplacement de l'installation. Avant de passer à l'étape suivante, veillez à copier l'emplacement de l'installation dans un fichier .txt. Nous devrons ajouter l'emplacement d'installation aux variables d'environnement de notre machine une fois l'installation terminée.
Choisissez l'emplacement de l'installation.
Choisir les composants
Par défaut, les données ScrollView, Training Tools, Shortcuts creation et Language sont toutes sélectionnées. À moins que vous n'ayez une raison particulière de ne pas les installer, nous souhaitons que tous ces éléments soient sélectionnés.
Composants d'installation par défaut de Tesseract OCR pour Windows.
Si nous faisons défiler la page vers le bas et développons la rubrique "Données de script supplémentaires", nous verrons que nous avons la possibilité de télécharger et d'installer des données de script supplémentaires. Cela peut être utile pour améliorer la précision de l'extraction de texte à partir de certaines langues écrites. C'est à vous de décider si vous voulez les installer.
Composants d'installation de scripts optionnels.
Choisissez le dossier du menu Démarrer
Dans la dernière étape de l'installation, on nous demandera de choisir le dossier du menu de démarrage pour les raccourcis de Tesseract OCR pour Windows. J'ai laissé le mien avec le nom par défaut : "Tesseract-OCR".
Choisissez le dossier du menu Démarrer pour les raccourcis de Tesseract OCR pour Windows.
Après avoir cliqué sur installer, Tesseract OCR pour Windows commencera à s'installer. L'étape suivante consiste à ajouter le chemin d'installation aux variables d'environnement de notre machine.
Étape 3 : Ajouter le chemin d'installation aux variables d'environnement
Panneau de contrôle
Pour ajouter l'emplacement d'installation à nos variables d'environnement, allez dans le menu Démarrer et cherchez "variables d'environnement". Vous devriez voir un résultat vous permettant d'éditer les variables d'environnement du système. Si ce n'est pas le cas, vous pouvez toujours suivre les étapes suivantes : Menu Démarrer > Panneau de configuration > Modifier les variables d'environnement du système.
Recherche de "variables d'environnement
Propriétés du système
Lorsque la boîte de dialogue "Propriétés du système" s'affiche, assurez-vous que l'onglet "Avancé" est cliqué, puis cliquez sur le bouton "Variables d'environnement" en bas à droite de l'écran.
Variables d'environnement
Sous les variables du système, nous cliquerons sur le bouton Editer.
Lorsque l'écran "Editer la variable d'environnement" s'affiche, cliquez sur le bouton Nouveau et collez le chemin d'installation de Tesseract OCR que nous avons copié plus tôt à l'étape 2. Une fois que vous avez fait cela, cliquez sur le bouton 'OK'.
Ajouter le répertoire d'installation de Tesseract OCR pour Windows aux variables d'environnement
C'est tout! Maintenant que nous avons exécuté le programme d'installation .exe et ajouté l'emplacement d'installation de Tesseract OCR pour Windows à nos variables d'environnement, nous pouvons tester que notre installation fonctionne en exécutant Tesseract sur une image de test.
Étape 4 : Exécuter Tesseract OCR pour Windows sur une image test
Pour vérifier que Tesseract OCR pour Windows a été installé avec succès, ouvrez l'invite de commande sur votre machine, puis exécutez la commande Tesseract. Vous devriez voir une sortie avec une explication rapide des options d'utilisation de Tesseract.
Vérification de la réussite de l'installation de Tesseract OCR pour Windows
Félicitations! Vous avez installé avec succès Tesseract OCR pour Windows sur votre machine.
Avantages de l'utilisation d'IronOCR pour effectuer le travail d'OCR :
IronOCR fournit Tesseract OCR sur Mac, Windows, Linux, Azure et Docker pour :
framework .NET 4.0 +
.NET Standard 2.0 +
.NET Core 2.0 +
.NET 5
Mono pour macOS et Linux
Xamarin pour macOS
IronOCR lit le texte, les codes-barres et les codes QR à partir des principaux formats d'images et de PDF en utilisant le dernier moteur Tesseract 5. Cette bibliothèque permet d'ajouter des fonctionnalités d'OCR aux applications de bureau, aux consoles et aux applications Web en quelques minutes. Il prend en charge plus de 127 langues internationales. Licences démarrer à partir de $749.
Étape 1 : Installer la dernière version d'IronOCR
Installer la DLL
Télécharger le DLL IronOCR directement sur votre machine.
Installer NuGet
Vous pouvez également l'installer via NuGet.
Install-Package IronOcr
Étape 2 : Appliquer votre clé de licence
Définissez votre clé de licence IronOCR à l'aide du code
Ajoutez ce code au démarrage de votre application avant que IronOCR ne soit utilisé.
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Hundreds of languages available
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
' ' Explore the OcrResult using IntelliSense
End Using
$vbLabelText $csharpLabel
Comment utiliser l'OCR de Tesseract dans C# ; for .NET ?
Installer Google Tesseract et IronOCR for .NET dans Visual Studio
Vérifier les dernières versions en C#
Vérifier la précision et la compatibilité des images
Tester les performances et le fonctionnement de l'API
Envisager une prise en charge multilingue
Exemple de code pour l'utilisation de l'OCR en .NET - Extraction de texte à partir d'images en C# ;
Utilisez NuGet Package Manager pour installer le NuGet Package IronOCR dans votre solution Visual Studio.
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Hundreds of languages available
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
' ' Explore the OcrResult using IntelliSense
End Using
$vbLabelText $csharpLabel
IronOCR Tesseract pour C&num ;
Avec IronOCR, l'installation de Tesseract se fait entièrement à l'aide du gestionnaire de paquets NuGet.
Install-Package IronOcr
Tesseract 5 API dans IronOCR Tesseract
À ce jour, IronTesseract est la seule mise en œuvre connue de Tesseract 5 pour .NET Framework ou Core.
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract() ' nothing to configure
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
$vbLabelText $csharpLabel
Tesseract 4 API dans IronOCR Tesseract
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
$vbLabelText $csharpLabel
Pourquoi IronOCR est meilleur que Tesseract :
ACCURACY
TESSERACT :
Si Tesseract rencontre une image qui est tournée, de travers, avec un faible DPI, scannée ou avec un bruit de fond, il devient presque impossible pour Tesseract d'obtenir des données à partir de cette image. En outre, Tesseract prendra également beaucoup de temps pour traiter ce document avant de vous fournir des informations absurdes.
IRONOCR :
IronOCR vous débarrasse de ce casse-tête. Les utilisateurs atteignent souvent une précision de 99,8 à 100 % avec une configuration minimale.
COMPATIBILITÉ DES IMAGES
TESSERACT :
N'accepte que le format d'image Leptonica PIX qui est un objet IntPtr C++ en C#. Les objets PIX ne sont pas des mémoires gérées - et le fait de ne pas les manipuler avec soin en C# entraîne des fuites de mémoire.
IRONOCR :
Les images sont gérées en mémoire. PDF et Tiff pris en charge. Le système. Le dessin, le flux et le tableau d'octets sont inclus pour chaque format de fichier.
Broad image support:
Documents PDF
Pages PDF
Fichiers TIFF multi-trames
JPEG & JPEG2000
GIF
PNG
System.Drawing.Image
Image binaire Données(octet[])
Et bien d'autres encore...
PERFORMANCE
TESSERACT :
Google Tesseract peut produire des résultats rapides et précis s'il est correctement réglé et si les images d'entrée ont été prétraitées à l'aide de Photoshop ou d'ImageMagick.
IRONOCR :
La DLL Tesseract IronOCR .NET fonctionne avec précision et rapidité pour la plupart des images dès sa sortie de l'emballage. Nous avons mis en œuvre le multithreading afin d'utiliser les processeurs multicœurs que la plupart des machines utilisent aujourd'hui. Même les images à faible résolution fonctionnent généralement avec un degré élevé de précision dans votre programme. Aucun PhotoShop n'est nécessaire.
API
TESSERACT :
Deux choix s'offrent à nous :
Travailler avec les couches Interop - beaucoup de couches trouvées sur GitHub sont obsolètes, ont des tickets non résolus, des fuites de mémoire, et des avertissements Console. Peut ne pas prendre en charge .NET Core ou Standard.
Travailler avec la ligne de commande EXE - difficile à déployer et constamment interrompu par les scanners de virus et les politiques de sécurité.
IRONOCR :
Une bibliothèque .NET gérée et testée pour Tesseract appelée IronTesseract.
Entièrement documenté avec support IntelliSense.
LANGUE
TESSERACT :
Ne prend en charge que 100 langues.
IRONOCR :
Prise en charge de plus de 127 langues.
Conclusion
Tesseract est une excellente ressource pour les développeurs C#, mais ce n'est pas une bibliothèque OCR complète pour .NET. Les images scannées ou photographiées doivent être traitées de manière à être orthogonales, normalisées, à haute résolution et exemptes de bruit numérique avant que Tesseract ne puisse les utiliser avec précision.
En revanche, IronOCR peut faire tout cela et bien plus encore, avec une seule ligne de code. Il est vrai qu'IronOCR utilise Tesseract pour son moteur OCR interne, un Tesseract très finement ajusté, construit pour C#, avec de nombreuses améliorations de performance et des fonctionnalités ajoutées en standard.
Regan est diplômé de l'université de Reading, où il a obtenu une licence en ingénierie électronique. Avant de rejoindre Iron Software, il s'était concentré sur une seule tâche. Ce qu'il apprécie le plus chez Iron Software, c'est la diversité des tâches qu'il peut accomplir, qu'il s'agisse d'apporter une valeur ajoutée aux ventes, à l'assistance technique, au développement de produits ou à la commercialisation. Il aime comprendre comment les développeurs utilisent la bibliothèque d'Iron Software et utiliser ces connaissances pour améliorer continuellement la documentation et développer les produits.
< PRÉCÉDENT Convertisseur OCR en ligne - Outils en ligne gratuits
SUIVANT > OCR dans Windows 11 (Outils gratuits en ligne)
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucune obligation de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre gratuit Démonstration en direct
Fiable par plus de 2 millions d'ingénieurs dans le monde entier