OUTILS OCR

Installer Tesseract (Tutoriel étape par étape avec images)

Publié janvier 27, 2023
Partager:

Qu'est-ce que Tesseract OCR ?

Tesseract est une bibliothèque logicielle open-source, publiée sous l'accord de licence Apache. Il a été développé à l'origine par Hewlett Packard dans les années 1980. Il s'agit d'un outil de reconnaissance de texte principalement utilisé pour identifier et extraire des textes à partir d'images. Tesseract OCR fournit une interface d'invite de commande pour exécuter cette fonctionnalité.

Comment télécharger Tesseract OCR sous Windows ?

  1. Télécharger le programme d'installation de Tesseract pour Windows

  2. Installer Tesseract OCR

  3. Ajouter le chemin d'installation aux variables d'environnement

  4. Lancer l'OCR Tesseract

1. Télécharger le programme d'installation de Tesseract pour Windows

Pour utiliser la commande Tesseract sous Windows, il faut d'abord télécharger les binaires Tesseract OCR .exe Windows Installer.

Il existe de nombreux endroits où l'on peut télécharger la dernière version de Tesseract OCR. Une fois ce lieu est de UB Mannheimqui est dérivé de tesseract-ocr/tesseract (Référentiel principal).

Installer Tesseract, Figure 1 : Wiki Tesseract

Tesseract Wiki

Télécharger le tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bits) Installateur Windows.

Tesseract peut être installé dans l'invite Python sur macOS en utilisant l'une ou l'autre des commandes ci-dessous :

brew install tesseract
sudo port install tesseract

2. Installer Tesseract OCR

Ensuite, nous allons installer Tesseract à l'aide du fichier .exe que nous avons téléchargé à l'étape précédente. Lancez le programme d'installation .exe pour démarrer l'installation de Tesseract.

Langue de l'installateur

Une fois le déballage de l'installation terminé, la boîte de dialogue des données linguistiques de l'installateur apparaît. Vous pouvez installer Tesseract pour utiliser plusieurs langues en sélectionnant des packs de langues supplémentaires, mais ici nous n'installerons que les données linguistiques pour la langue anglaise.

Installer Tesseract, Figure 2 : Installateur de Tesseract

Installateur Tesseract

Cliquez sur OK et la langue d'installation de Tesseract OCR est définie.

Tesseract OCR Setup

L'assistant de configuration apparaît ensuite. Cet assistant d'installation guidera l'installation de Tesseract pour Windows.

Installer Tesseract, Figure 3 : Tesseract OCR

Assistant de configuration de l'OCR Tesseract

Cliquez sur Suivant pour poursuivre l'installation.

Accepter l'accord de licence

Tesseract OCR est sous licence Apache License Version 2.0. Comme il s'agit d'un logiciel libre et gratuit, vous pouvez redistribuer et modifier les versions de Tesseract sans souci de loyauté.

Installer Tesseract, Figure 4 : Licence Tesseract

Tesseract OCR est sous licence Apache License v2.0. Veuillez accepter cette licence pour poursuivre l'installation.

Cliquez sur J'accepte pour procéder à l'installation.

Choisir les utilisateurs

Vous pouvez choisir d'installer Tesseract pour plusieurs utilisateurs ou pour un seul.

Installer Tesseract, Figure 5 : Tesseract Choisir les utilisateurs

Choisissez d'installer Tesseract OCR pour l'utilisateur actuel (vous) ou pour tous les comptes utilisateurs

Cliquez sur Suivant pour choisir les composants à installer avec Tesseract.

Choisir les composants

Dans la liste des composants à installer, ScrollView, Training Tools, Shortcuts creation et Language data sont sélectionnés par défaut. Nous conserverons toutes les options sélectionnées par défaut. Vous pouvez choisir n'importe quel composant ou l'ignorer en fonction de vos besoins. En général, tous sont nécessaires à l'installation.

Installer Tesseract, Figure 6 : Composants de Tesseract

Ici, vous pouvez choisir d'inclure ou d'exclure les composants de Tesseract OCR. Pour obtenir les meilleurs résultats, poursuivez l'installation en sélectionnant les composants par défaut.

Cliquez sur Suivant pour choisir l'emplacement de l'installation.

Choisir le lieu d'installation

Ensuite, nous allons choisir l'endroit où installer Tesseract. Veillez à copier le chemin du dossier de destination. Nous en aurons besoin plus tard pour ajouter l'emplacement de l'installation à la variable d'environnement path de la machine.

Installer Tesseract, Figure 7 : Emplacement de l'installation de Tesseract

Sélectionnez un emplacement d'installation pour la bibliothèque Tesseract OCR, et mémorisez cet emplacement pour plus tard.

Cliquez sur Suivant pour poursuivre l'installation de Tesseract.

Choisissez le dossier du menu Démarrer

Il s'agit de la dernière étape dans laquelle nous allons créer des raccourcis dans le menu Démarrer. Vous pouvez donner n'importe quel nom à ce dossier, mais je l'ai conservé par défaut.

Installer Tesseract, Figure 8 : Menu de démarrage de Tesseract

Choisissez le nom du dossier du menu de démarrage de Tesseract OCR

Cliquez ensuite sur Installer et attendez la fin de l'installation. Une fois l'installation terminée, l'écran suivant apparaît. Cliquez sur Terminer et l'installation de Tesseract OCR sous Windows est terminée.

Installer Tesseract, Figure 9 : Installateur Tesseract

L'installation de Tesseract OCR est maintenant terminée.

3. Ajouter le chemin d'installation aux variables d'environnement du système

Nous allons maintenant ajouter le chemin d'installation de Tesseract aux variables d'environnement de Windows.

Dans le menu Démarrer, tapez "variables d'environnement" ou "paramètres système avancés"

Installer Tesseract, Figure 10 : Variables du chemin d'accès au système

La boîte de dialogue des propriétés du système Windows

Propriétés du système

Lorsque la boîte de dialogue Propriétés du système s'ouvre, cliquez sur Avancé, puis sur le bouton Variables d'environnement, situé en bas à droite de l'écran.

La boîte de dialogue Variables d'environnement vous est présentée.

Variables d'environnement

Sous Variables système, cliquez sur la variable Chemin d'accès.

Installer Tesseract, Figure 11 : Variables d'environnement

Accès aux variables d'environnement du système Windows

Cliquez ensuite sur Modifier.

Ajouter le répertoire d'installation de Tesseract OCR pour Windows aux variables d'environnement

Dans la boîte de dialogue Modifier une variable d'environnement, cliquez sur Nouveau. Collez le chemin d'accès à l'emplacement d'installation qui a été copié au cours de la deuxième étape, et cliquez sur OK.

Installer Tesseract, Figure 12 : Modifier la variable d'environnement

Modifiez la variable d'environnement du système Path de Windows en ajoutant une entrée qui inclut le chemin absolu vers l'installation de Tesseract OCR

C'est tout! Nous avons téléchargé, installé et défini la variable d'environnement pour Tesseract OCR dans une machine Windows.

4. Lancer l'OCR Tesseract

Pour vérifier que Tesseract OCR pour Windows a bien été installé et ajouté aux variables d'environnement, ouvrez l'invite de commande(cmd) sur votre machine Windows, puis lancez la commande "tesseract ". Si tout a bien fonctionné, un guide d'utilisation rapide doit être affiché avec l'OCR et les options individuelles telles que la version de Tesseract.

Installer Tesseract, Figure 13 : Modifier la variable d'environnement

Exécuter le tesseract dans la ligne de commande Windows (ou Windows Powershell) pour s'assurer que les étapes d'installation ci-dessus ont été effectuées correctement. La sortie de la console est le résultat attendu d'une installation réussie de Windows.

Félicitations! Nous avons installé avec succès Tesseract OCR pour Windows.

Bibliothèque IronOCR

IronOCR est une bibliothèque C# basée sur Tesseract qui permet aux développeurs de logiciels .NET d'identifier et d'extraire du texte à partir d'images et de documents PDF. Il est entièrement construit en .NET, en utilisant le moteur Tesseract le plus avancé que l'on connaisse.

Installation avec NuGet Package Manager

L'installation d'IronOCR dans Visual Studio ou en ligne de commande avec le gestionnaire de paquets NuGet est très facile. Dans Visual Studio, accédez aux options du menu avec :

Outils > NuGet Package Manager > Console du gestionnaire de paquets

Ensuite, dans la ligne de commande, tapez la commande suivante :

Install-Package IronOcr

Ceci installera IronOCR facilement et vous pourrez maintenant l'utiliser pour en extraire tout le potentiel.

Vous pouvez également télécharger d'autres Packages NuGet IronOCR pour différentes plateformes :

IronOCR avec Tesseract 5

L'exemple de code ci-dessous montre comment il est facile d'utiliser IronOCR Tesseract pour lire du texte à partir d'une image et effectuer l'OCR en utilisant C#.

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
VB   C#

Si vous souhaitez un code plus robuste, les éléments suivants devraient vous aider à réaliser la même tâche :

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

Image d'entrée

Installer Tesseract, Figure 14 : Image d'entrée

Exemple d'image d'entrée pour le traitement IronOCR

Image de la sortie

La sortie est imprimée sur la console sous la forme suivante :

Installer Tesseract, Figure 15 : Image de sortie

La console renvoyée par l'exécution d'IronOCR sur l'image d'exemple.

Pourquoi choisir IronOCR ?

IronOCR est très facile à installer. Il fournit une bibliothèque logicielle .NET complète et bien documentée.

IronOCR atteint un taux de précision de détection de texte de 99,8 % sans avoir recours à d'autres bibliothèques tierces ou services web.

Il prend également en charge le multithreading. Plus important encore, IronOCR peut travailler avec plus de 125 langues internationales.

Conclusion

Dans ce tutoriel, nous avons appris comment télécharger et installer Tesseract OCR sur une machine Windows. Tesseract OCR est un excellent logiciel pour les développeurs C# mais il a cependant quelques limites. Il n'est pas entièrement développé pour .NET. Les fichiers d'images scannées ou photographiées doivent être traités et normalisés en haute résolution, sans bruit numérique. Ce n'est qu'ensuite que Tesseract peut les traiter avec précision.

En revanche, IronOCR peut travailler avec n'importe quelle image fournie, qu'elle soit scannée ou photographiée, avec une seule ligne de code. IronOCR utilise également Tesseract comme moteur d'OCR interne, mais il est très finement réglé pour tirer le meilleur parti de Tesseract spécialement conçu pour C#, avec une performance élevée et des fonctionnalités améliorées.

Vous pouvez télécharger le logiciel IronOCR à partir de l'adresse suivantelien.

< PRÉCÉDENT
Outils OCR de Microsoft (alternatives en C#)
SUIVANT >
OCR à partir de PDF (outils en ligne gratuits)