Installer Tesseract (Tutoriel étape par étape avec images)
Publié janvier 27, 2023
Partager:
Qu'est-ce que Tesseract OCR ?
Tesseract est une bibliothèque logicielle open-source, publiée sous l'accord de licence Apache. Il a été développé à l'origine par Hewlett Packard dans les années 1980. Il s'agit d'un outil de reconnaissance de texte principalement utilisé pour identifier et extraire des textes à partir d'images. Tesseract OCR fournit une interface d'invite de commande pour exécuter cette fonctionnalité.
IronOCR est construit au-dessus de Tesseract. Lisez des textes à partir d'images et de PDF avec une précision de 99,8 % en seulement quelques lignes de code.(sans dépendre des services web externes). IronOCR extrait également le contenu des images de mauvaise qualité et des numérisations. Dites adieu au réglage de performance fastidieux et au travail de prétraitement laborieux. Faites confiance à IronOCR pour accomplir la tâche rapidement lorsque la vitesse, la précision et la facilité d'utilisation importent.
Tesseract peut être installé dans l'invite Python sur macOS en utilisant l'une ou l'autre des commandes ci-dessous :
brew install tesseract
sudo port install tesseract
2. Installer Tesseract OCR
Ensuite, nous allons installer Tesseract à l'aide du fichier .exe que nous avons téléchargé à l'étape précédente. Lancez le programme d'installation .exe pour démarrer l'installation de Tesseract.
Langue de l'installateur
Une fois le déballage de l'installation terminé, la boîte de dialogue des données linguistiques de l'installateur apparaît. Vous pouvez installer Tesseract pour utiliser plusieurs langues en sélectionnant des packs de langues supplémentaires, mais ici nous n'installerons que les données linguistiques pour la langue anglaise.
Installateur Tesseract
Cliquez sur OK et la langue d'installation de Tesseract OCR est définie.
Tesseract OCR Setup
L'assistant de configuration apparaît ensuite. Cet assistant d'installation guidera l'installation de Tesseract pour Windows.
Assistant de configuration de l'OCR Tesseract
Cliquez sur Suivant pour poursuivre l'installation.
Accepter l'accord de licence
Tesseract OCR est sous licence Apache License Version 2.0. Comme il s'agit d'un logiciel libre et gratuit, vous pouvez redistribuer et modifier les versions de Tesseract sans souci de loyauté.
Tesseract OCR est sous licence Apache License v2.0. Veuillez accepter cette licence pour poursuivre l'installation.
Cliquez sur J'accepte pour procéder à l'installation.
Choisir les utilisateurs
Vous pouvez choisir d'installer Tesseract pour plusieurs utilisateurs ou pour un seul.
Choisissez d'installer Tesseract OCR pour l'utilisateur actuel (vous) ou pour tous les comptes utilisateurs
Cliquez sur Suivant pour choisir les composants à installer avec Tesseract.
Choisir les composants
Dans la liste des composants à installer, ScrollView, Training Tools, Shortcuts creation et Language data sont sélectionnés par défaut. Nous conserverons toutes les options sélectionnées par défaut. Vous pouvez choisir n'importe quel composant ou l'ignorer en fonction de vos besoins. En général, tous sont nécessaires à l'installation.
Ici, vous pouvez choisir d'inclure ou d'exclure les composants de Tesseract OCR. Pour obtenir les meilleurs résultats, poursuivez l'installation en sélectionnant les composants par défaut.
Cliquez sur Suivant pour choisir l'emplacement de l'installation.
Choisir le lieu d'installation
Ensuite, nous allons choisir l'endroit où installer Tesseract. Veillez à copier le chemin du dossier de destination. Nous en aurons besoin plus tard pour ajouter l'emplacement de l'installation à la variable d'environnement path de la machine.
Sélectionnez un emplacement d'installation pour la bibliothèque Tesseract OCR, et mémorisez cet emplacement pour plus tard.
Cliquez sur Suivant pour poursuivre l'installation de Tesseract.
Choisissez le dossier du menu Démarrer
Il s'agit de la dernière étape dans laquelle nous allons créer des raccourcis dans le menu Démarrer. Vous pouvez donner n'importe quel nom à ce dossier, mais je l'ai conservé par défaut.
Choisissez le nom du dossier du menu de démarrage de Tesseract OCR
Cliquez ensuite sur Installer et attendez la fin de l'installation. Une fois l'installation terminée, l'écran suivant apparaît. Cliquez sur Terminer et l'installation de Tesseract OCR sous Windows est terminée.
L'installation de Tesseract OCR est maintenant terminée.
3. Ajouter le chemin d'installation aux variables d'environnement du système
Nous allons maintenant ajouter le chemin d'installation de Tesseract aux variables d'environnement de Windows.
Dans le menu Démarrer, tapez "variables d'environnement" ou "paramètres système avancés"
La boîte de dialogue des propriétés du système Windows
Propriétés du système
Lorsque la boîte de dialogue Propriétés du système s'ouvre, cliquez sur Avancé, puis sur le bouton Variables d'environnement, situé en bas à droite de l'écran.
La boîte de dialogue Variables d'environnement vous est présentée.
Variables d'environnement
Sous Variables système, cliquez sur la variable Chemin d'accès.
Accès aux variables d'environnement du système Windows
Cliquez ensuite sur Modifier.
Ajouter le répertoire d'installation de Tesseract OCR pour Windows aux variables d'environnement
Dans la boîte de dialogue Modifier une variable d'environnement, cliquez sur Nouveau. Collez le chemin d'accès à l'emplacement d'installation qui a été copié au cours de la deuxième étape, et cliquez sur OK.
Modifiez la variable d'environnement du système Path de Windows en ajoutant une entrée qui inclut le chemin absolu vers l'installation de Tesseract OCR
C'est tout! Nous avons téléchargé, installé et défini la variable d'environnement pour Tesseract OCR dans une machine Windows.
4. Lancer l'OCR Tesseract
Pour vérifier que Tesseract OCR pour Windows a bien été installé et ajouté aux variables d'environnement, ouvrez l'invite de commande(cmd) sur votre machine Windows, puis lancez la commande "tesseract ". Si tout a bien fonctionné, un guide d'utilisation rapide doit être affiché avec l'OCR et les options individuelles telles que la version de Tesseract.
Exécuter le tesseract dans la ligne de commande Windows (ou Windows Powershell) pour s'assurer que les étapes d'installation ci-dessus ont été effectuées correctement. La sortie de la console est le résultat attendu d'une installation réussie de Windows.
Félicitations! Nous avons installé avec succès Tesseract OCR pour Windows.
Bibliothèque IronOCR
IronOCR est une bibliothèque C# basée sur Tesseract qui permet aux développeurs de logiciels .NET d'identifier et d'extraire du texte à partir d'images et de documents PDF. Il est entièrement construit en .NET, en utilisant le moteur Tesseract le plus avancé que l'on connaisse.
Installation avec NuGet Package Manager
L'installation d'IronOCR dans Visual Studio ou en ligne de commande avec le gestionnaire de paquets NuGet est très facile. Dans Visual Studio, accédez aux options du menu avec :
Outils > NuGet Package Manager > Console du gestionnaire de paquets
Ensuite, dans la ligne de commande, tapez la commande suivante :
Install-Package IronOcr
Ceci installera IronOCR facilement et vous pourrez maintenant l'utiliser pour en extraire tout le potentiel.
Vous pouvez également télécharger d'autres Packages NuGet IronOCR pour différentes plateformes :
L'exemple de code ci-dessous montre comment il est facile d'utiliser IronOCR Tesseract pour lire du texte à partir d'une image et effectuer l'OCR en utilisant C#.
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
$vbLabelText $csharpLabel
Si vous souhaitez un code plus robuste, les éléments suivants devraient vous aider à réaliser la même tâche :
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
$vbLabelText $csharpLabel
Image d'entrée
Exemple d'image d'entrée pour le traitement IronOCR
Image de la sortie
La sortie est imprimée sur la console sous la forme suivante :
La console renvoyée par l'exécution d'IronOCR sur l'image d'exemple.
Pourquoi choisir IronOCR ?
IronOCR est très facile à installer. Il fournit une bibliothèque logicielle .NET complète et bien documentée.
IronOCR atteint un taux de précision de détection de texte de 99,8 % sans avoir recours à d'autres bibliothèques tierces ou services web.
Il prend également en charge le multithreading. Plus important encore, IronOCR peut travailler avec plus de 125 langues internationales.
Installer IronOCR depuis NuGet pour vos prochains projets d'OCR afin de découvrir ses capacités complètes par vous-même. A licence d'essai offre un accès gratuit et illimité aux capacités complètes d'IronOCR pendant 30 jours.
Conclusion
Dans ce tutoriel, nous avons appris comment télécharger et installer Tesseract OCR sur une machine Windows. Tesseract OCR est un excellent logiciel pour les développeurs C# mais il a cependant quelques limites. Il n'est pas entièrement développé pour .NET. Les fichiers d'images scannées ou photographiées doivent être traités et normalisés en haute résolution, sans bruit numérique. Ce n'est qu'ensuite que Tesseract peut les traiter avec précision.
En revanche, IronOCR peut travailler avec n'importe quelle image fournie, qu'elle soit scannée ou photographiée, avec une seule ligne de code. IronOCR utilise également Tesseract comme moteur d'OCR interne, mais il est très finement réglé pour tirer le meilleur parti de Tesseract spécialement conçu pour C#, avec une performance élevée et des fonctionnalités améliorées.
Vous pouvez télécharger le logiciel IronOCR à partir de l'adresse suivantelien.
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT Outils OCR de Microsoft (alternatives en C#)
SUIVANT > OCR à partir de PDF (outils en ligne gratuits)
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucune obligation de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre gratuit Démonstration en direct
Fiable par plus de 2 millions d'ingénieurs dans le monde entier