Installer Tesseract (Tutoriel étape par étape avec images)
Qu'est-ce que Tesseract OCR ?
Tesseract est une bibliothèque logicielle open source, distribuée sous la licence Apache. Il a été initialement développé par Hewlett Packard dans les années 1980. Il s'agit d'un outil de reconnaissance de texte principalement utilisé pour identifier et extraire des textes à partir d'images. Tesseract OCR fournit une interface en ligne de commande pour exécuter cette fonctionnalité.
Découvrez les fonctionnalités d'IronOCR ou inscrivez-vous pour un essai gratuit dès aujourd'hui !
Comment télécharger Tesseract OCR sous Windows
- Téléchargez le programme d'installation de Tesseract pour Windows
- Installez Tesseract OCR
- Ajouter le chemin d'installation aux variables d'environnement
- Exécuter Tesseract OCR
1. Téléchargez le programme d'installation de Tesseract pour Windows
Pour utiliser la commande Tesseract sous Windows, il faut d'abord télécharger le programme d'installation Windows .exe des binaires OCR de Tesseract.
Il existe de nombreux sites où vous pouvez télécharger la dernière version de Tesseract OCR. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).
Wiki Tesseract
Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.
Pour les utilisateurs de macOS, Tesseract peut être installé dans le terminal à l'aide de l'une des commandes ci-dessous :
brew install tesseract
brew install tesseract
sudo port install tesseract
sudo port install tesseract
2. Installez Tesseract OCR
Ensuite, nous installerons Tesseract à l'aide du fichier .exe téléchargé à l'étape précédente. Lancez le programme d'installation .exe pour démarrer l'installation de Tesseract.
Langue d'installation
Une fois le déballage du programme d'installation terminé, la boîte de dialogue des données de langue de l'installateur apparaîtra. Vous pouvez installer Tesseract pour utiliser plusieurs langues en sélectionnant des packs de langues supplémentaires, mais ici, nous installerons uniquement les données linguistiques pour l'anglais.
Programme d'installation de Tesseract
Cliquez sur OK, et la langue du programme d'installation de Tesseract OCR est définie.
Configuration OCR Tesseract
Ensuite, l'assistant d'installation apparaîtra. Cet assistant d'installation vous guidera tout au long de l'installation de Tesseract sous Windows.
Assistant de configuration OCR Tesseract
Cliquez sur Suivant pour poursuivre l'installation.
Accepter le contrat de licence
Tesseract OCR est distribué sous licence Apache version 2.0. Étant donné qu'il s'agit d'un logiciel libre et gratuit, vous pouvez redistribuer et modifier des versions de Tesseract sans aucune obligation de paiement de redevances.
Tesseract OCR est distribué sous licence Apache v2.0. Veuillez accepter cette licence pour poursuivre l'installation.
Cliquez sur " J'accepte " pour procéder à l'installation.
Choisir les utilisateurs
Vous pouvez choisir d'installer Tesseract pour plusieurs utilisateurs ou pour un seul utilisateur.
Choisissez d'installer Tesseract OCR pour l'utilisateur actuel (vous) ou pour tous les comptes d'utilisateurs
Cliquez sur Suivant pour choisir les composants à installer avec Tesseract.
Choisir les composants
Dans la liste des composants à installer, ScrollView, Training Tools, Shortcuts creation et Language data sont tous sélectionnés par défaut. Nous conserverons toutes les options sélectionnées par défaut. Vous pouvez choisir n'importe quel composant ou en ignorer certains en fonction de vos besoins. En général, tous sont nécessaires à l'installation.
Ici, vous pouvez choisir d'inclure ou d'exclure les composants OCR de Tesseract. Pour des résultats optimaux, poursuivez l'installation en conservant les composants par défaut.
Cliquez sur Suivant pour choisir l'emplacement d'installation.
Choisir l'emplacement d'installation
Ensuite, nous choisirons l'emplacement d'installation de Tesseract. Assurez-vous de copier le chemin d'accès au dossier de destination. Nous en aurons besoin plus tard pour ajouter le chemin d'installation à la variable d'environnement PATH de la machine.
Choisissez un emplacement d'installation pour la bibliothèque Tesseract OCR et notez-le pour une utilisation ultérieure.
Cliquez sur Suivant pour poursuivre la configuration de l'installation de Tesseract.
Choisissez le dossier du menu Démarrer
Il s'agit de la dernière étape, au cours de laquelle nous allons créer des raccourcis dans le menu Démarrer. Vous pouvez nommer le dossier comme vous le souhaitez, mais je l'ai laissé tel quel, par défaut.
Choisissez le nom du dossier du menu Démarrer de Tesseract OCR
Cliquez maintenant sur Installer et attendez que l'installation soit terminée. Une fois l'installation terminée, l'écran suivant s'affichera. Cliquez sur Terminer, et l'installation de Tesseract OCR sous Windows est terminée.
L'installation du système OCR Tesseract est maintenant terminée.
3. Ajouter le chemin d'installation aux variables d'environnement système
Nous allons maintenant ajouter le chemin d'installation de Tesseract aux variables d'environnement de Windows.
Dans le menu Démarrer, tapez " variables d'environnement " ou " paramètres système avancés ".
La boîte de dialogue Propriétés système de Windows
Propriétés du système
Une fois la boîte de dialogue Propriétés système ouverte, cliquez sur l'onglet Avancé, puis sur le bouton Variables d'environnement, situé en bas à droite de l'écran.
La boîte de dialogue Variables d'environnement s'affichera.
Variables d'environnement
Sous Variables système , cliquez sur la variable Chemin .
Accéder aux variables d'environnement système de Windows
Cliquez maintenant sur Modifier.
Ajouter le répertoire d'installation de Tesseract OCR pour Windows aux variables d'environnement
Dans la boîte de dialogue Modifier la variable d'environnement , cliquez sur Nouveau. Collez le chemin d'accès à l'emplacement d'installation copié lors de la deuxième étape, puis cliquez sur OK.
Modifiez la variable d'environnement système Path de Windows en ajoutant une entrée contenant le chemin absolu vers l'installation de Tesseract OCR.
Et voilà ! Nous avons téléchargé, installé et configuré avec succès la variable d'environnement pour Tesseract OCR sur une machine Windows.
4. Exécuter Tesseract OCR
Pour vérifier que Tesseract OCR pour Windows a été correctement installé et ajouté aux variables d'environnement, ouvrez l'invite de commandes ( cmd ) sur votre machine Windows, puis exécutez la commande " tesseract " . Si tout a fonctionné correctement, un guide d'utilisation rapide doit être affiché avec la reconnaissance optique de caractères (OCR) et d'autres options spécifiques telles que la version Tesseract.
Exécutez la commande `tesseract` dans l'invite de commandes Windows (ou Windows PowerShell) pour vérifier que les étapes d'installation ci-dessus ont été correctement effectuées. Le résultat affiché dans la console correspond à une installation Windows réussie.
Félicitations ! Nous avons installé avec succès Tesseract OCR pour Windows.
Bibliothèque IronOCR
IronOCR est une bibliothèque C# basée sur Tesseract qui permet aux développeurs de logiciels .NET d'identifier et d'extraire du texte à partir d'images et de documents PDF. Il est entièrement développé en .NET, utilisant le moteur Tesseract le plus avancé qui soit.
Installer avec le gestionnaire de packages NuGet
L'installation d'IronOCR dans Visual Studio ou via la ligne de commande avec le gestionnaire de packages NuGet est simple. Dans Visual Studio, accédez aux options du menu avec :
Outils > Gestionnaire de packages NuGet > Console du gestionnaire de packages
Ensuite, dans l'invite de commandes, saisissez la commande suivante :
Install-Package IronOcr
Cela installera IronOCR sans problème, et vous pourrez ensuite l'utiliser pour exploiter tout son potentiel.
Vous pouvez également télécharger d'autres packages NuGet IronOCR pour différentes plateformes :
IronOCR avec Tesseract 5
L'exemple de code ci-dessous montre à quel point il est facile d'utiliser IronOCR Tesseract pour lire du texte à partir d'une image et effectuer une reconnaissance optique de caractères (OCR) en utilisant C#.
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;
// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text
' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
Si vous souhaitez un code plus robuste, les éléments suivants devraient vous aider à accomplir la même tâche :
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;
// Create an instance of IronTesseract
var Ocr = new IronTesseract();
// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
// Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png");
// You can add any number of images
// Read the OCR text from the input
var Result = Ocr.Read(Input);
// Output the extracted text to the console
Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr
' Create an instance of IronTesseract
Private Ocr = New IronTesseract()
' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
' Add an image to the input collection
Input.AddImage("test-files/redacted-employmentapp.png")
' You can add any number of images
' Read the OCR text from the input
Dim Result = Ocr.Read(Input)
' Output the extracted text to the console
Console.WriteLine(Result.Text)
End Using
Image d'entrée
Exemple d'image d'entrée pour le traitement IronOCR
Image de Sortie
Le résultat s'affiche sur la console comme suit :
La console a renvoyé un message suite à l'exécution d'IronOCR sur l'image d'exemple.
Pourquoi choisir IronOCR ?
IronOCR est très facile à installer. Elle fournit une bibliothèque logicielle .NET complète et bien documentée.
IronOCR atteint un taux de précision de détection de texte de 99,8 % sans avoir besoin de bibliothèques tierces ni de services Web.
Il offre également une prise en charge du multithreading. Plus important encore, IronOCR peut fonctionner avec plus de 125 langues internationales.
Conclusion
Dans ce tutoriel, nous avons appris à télécharger et à installer Tesseract OCR sur un ordinateur Windows. Tesseract OCR est un excellent logiciel pour les développeurs C++, mais il présente certaines limitations. Il n'est pas entièrement développé for .NET. Les fichiers d'images numérisées ou les images photographiées doivent être traités et normalisés en haute résolution afin d'éliminer tout bruit numérique. Ce n'est qu'à cette condition que Tesseract pourra les traiter avec précision.
À l'inverse, IronOCR peut fonctionner avec n'importe quelle image fournie, qu'elle soit scannée ou photographiée, avec une seule ligne de code. IronOCR utilise également Tesseract comme moteur OCR interne, mais il est finement optimisé pour tirer le meilleur parti de Tesseract, spécialement conçu pour C#, avec des performances élevées et des fonctionnalités améliorées.
Vous pouvez télécharger le logiciel IronOCR à partir de ce lien .




