Passer au contenu du pied de page
OUTILS OCR
Comment installer Tesseract OCR sur Windows en C#

Installer Tesseract (Tutoriel étape par étape avec images)

Qu'est-ce que Tesseract OCR ?

Tesseract est une bibliothèque logicielle open source, distribuée sous la licence Apache. Il a été initialement développé par Hewlett Packard dans les années 1980. Il s'agit d'un outil de reconnaissance de texte principalement utilisé pour identifier et extraire des textes à partir d'images. Tesseract OCR fournit une interface en ligne de commande pour exécuter cette fonctionnalité.

Comment télécharger Tesseract OCR sous Windows

  1. Téléchargez le programme d'installation de Tesseract pour Windows
  2. Installez Tesseract OCR
  3. Ajouter le chemin d'installation aux variables d'environnement
  4. Exécuter Tesseract OCR

1. Téléchargez le programme d'installation de Tesseract pour Windows

Pour utiliser la commande Tesseract sous Windows, il faut d'abord télécharger le programme d'installation Windows .exe des binaires OCR de Tesseract.

Il existe de nombreux sites où vous pouvez télécharger la dernière version de Tesseract OCR. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Install Tesseract, Figure 1: Wiki Tesseract

Wiki Tesseract

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

Pour les utilisateurs de macOS, Tesseract peut être installé dans le terminal à l'aide de l'une des commandes ci-dessous :

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Installez Tesseract OCR

Ensuite, nous installerons Tesseract à l'aide du fichier .exe téléchargé à l'étape précédente. Lancez le programme d'installation .exe pour démarrer l'installation de Tesseract.

Langue d'installation

Une fois le déballage du programme d'installation terminé, la boîte de dialogue des données de langue de l'installateur apparaîtra. Vous pouvez installer Tesseract pour utiliser plusieurs langues en sélectionnant des packs de langues supplémentaires, mais ici, nous installerons uniquement les données linguistiques pour l'anglais.

Install Tesseract, Figure 2: Programme d'installation de Tesseract

Programme d'installation de Tesseract

Cliquez sur OK, et la langue du programme d'installation de Tesseract OCR est définie.

Configuration OCR Tesseract

Ensuite, l'assistant d'installation apparaîtra. Cet assistant d'installation vous guidera tout au long de l'installation de Tesseract sous Windows.

Install Tesseract, Figure 3: Tesseract OCR

Assistant de configuration OCR Tesseract

Cliquez sur Suivant pour poursuivre l'installation.

Accepter le contrat de licence

Tesseract OCR est distribué sous licence Apache version 2.0. Étant donné qu'il s'agit d'un logiciel libre et gratuit, vous pouvez redistribuer et modifier des versions de Tesseract sans aucune obligation de paiement de redevances.

Install Tesseract, Figure 4: Tesseract License

Tesseract OCR est distribué sous licence Apache v2.0. Veuillez accepter cette licence pour poursuivre l'installation.

Cliquez sur " J'accepte " pour procéder à l'installation.

Choisir les utilisateurs

Vous pouvez choisir d'installer Tesseract pour plusieurs utilisateurs ou pour un seul utilisateur.

Install Tesseract, Figure 5: Tesseract Choose Users

Choisissez d'installer Tesseract OCR pour l'utilisateur actuel (vous) ou pour tous les comptes d'utilisateurs

Cliquez sur Suivant pour choisir les composants à installer avec Tesseract.

Choisir les composants

Dans la liste des composants à installer, ScrollView, Training Tools, Shortcuts creation et Language data sont tous sélectionnés par défaut. Nous conserverons toutes les options sélectionnées par défaut. Vous pouvez choisir n'importe quel composant ou en ignorer certains en fonction de vos besoins. En général, tous sont nécessaires à l'installation.

Install Tesseract, Figure 6: Tesseract Components

Ici, vous pouvez choisir d'inclure ou d'exclure les composants OCR de Tesseract. Pour des résultats optimaux, poursuivez l'installation en conservant les composants par défaut.

Cliquez sur Suivant pour choisir l'emplacement d'installation.

Choisir l'emplacement d'installation

Ensuite, nous choisirons l'emplacement d'installation de Tesseract. Assurez-vous de copier le chemin d'accès au dossier de destination. Nous en aurons besoin plus tard pour ajouter le chemin d'installation à la variable d'environnement PATH de la machine.

Install Tesseract, Figure 7: Tesseract Install Location

Choisissez un emplacement d'installation pour la bibliothèque Tesseract OCR et notez-le pour une utilisation ultérieure.

Cliquez sur Suivant pour poursuivre la configuration de l'installation de Tesseract.

Choisissez le dossier du menu Démarrer

Il s'agit de la dernière étape, au cours de laquelle nous allons créer des raccourcis dans le menu Démarrer. Vous pouvez nommer le dossier comme vous le souhaitez, mais je l'ai laissé tel quel, par défaut.

Install Tesseract, Figure 8: Tesseract Start Menu

Choisissez le nom du dossier du menu Démarrer de Tesseract OCR

Cliquez maintenant sur Installer et attendez que l'installation soit terminée. Une fois l'installation terminée, l'écran suivant s'affichera. Cliquez sur Terminer, et l'installation de Tesseract OCR sous Windows est terminée.

Install Tesseract, Figure 9: Programme d'installation de Tesseract

L'installation du système OCR Tesseract est maintenant terminée.

3. Ajouter le chemin d'installation aux variables d'environnement système

Nous allons maintenant ajouter le chemin d'installation de Tesseract aux variables d'environnement de Windows.

Dans le menu Démarrer, tapez " variables d'environnement " ou " paramètres système avancés ".

Install Tesseract, Figure 10: System Path Variables

La boîte de dialogue Propriétés système de Windows

Propriétés du système

Une fois la boîte de dialogue Propriétés système ouverte, cliquez sur l'onglet Avancé, puis sur le bouton Variables d'environnement, situé en bas à droite de l'écran.

La boîte de dialogue Variables d'environnement s'affichera.

Variables d'environnement

Sous Variables système , cliquez sur la variable Chemin .

Install Tesseract, Figure 11: Environment Variables

Accéder aux variables d'environnement système de Windows

Cliquez maintenant sur Modifier.

Ajouter le répertoire d'installation de Tesseract OCR pour Windows aux variables d'environnement

Dans la boîte de dialogue Modifier la variable d'environnement , cliquez sur Nouveau. Collez le chemin d'accès à l'emplacement d'installation copié lors de la deuxième étape, puis cliquez sur OK.

Install Tesseract, Figure 12: Edit Environment Variable

Modifiez la variable d'environnement système Path de Windows en ajoutant une entrée contenant le chemin absolu vers l'installation de Tesseract OCR.

Et voilà ! Nous avons téléchargé, installé et configuré avec succès la variable d'environnement pour Tesseract OCR sur une machine Windows.

4. Exécuter Tesseract OCR

Pour vérifier que Tesseract OCR pour Windows a été correctement installé et ajouté aux variables d'environnement, ouvrez l'invite de commandes ( cmd ) sur votre machine Windows, puis exécutez la commande " tesseract " . Si tout a fonctionné correctement, un guide d'utilisation rapide doit être affiché avec la reconnaissance optique de caractères (OCR) et d'autres options spécifiques telles que la version Tesseract.

Install Tesseract, Figure 13: Edit Environment Variable

Exécutez la commande `tesseract` dans l'invite de commandes Windows (ou Windows PowerShell) pour vérifier que les étapes d'installation ci-dessus ont été correctement effectuées. Le résultat affiché dans la console correspond à une installation Windows réussie.

Félicitations ! Nous avons installé avec succès Tesseract OCR pour Windows.

Bibliothèque IronOCR

IronOCR est une bibliothèque C# basée sur Tesseract qui permet aux développeurs de logiciels .NET d'identifier et d'extraire du texte à partir d'images et de documents PDF. Il est entièrement développé en .NET, utilisant le moteur Tesseract le plus avancé qui soit.

Installer avec le gestionnaire de packages NuGet

L'installation d'IronOCR dans Visual Studio ou via la ligne de commande avec le gestionnaire de packages NuGet est simple. Dans Visual Studio, accédez aux options du menu avec :

Outils > Gestionnaire de packages NuGet > Console du gestionnaire de packages

Ensuite, dans l'invite de commandes, saisissez la commande suivante :

Install-Package IronOcr

Cela installera IronOCR sans problème, et vous pourrez ensuite l'utiliser pour exploiter tout son potentiel.

Vous pouvez également télécharger d'autres packages NuGet IronOCR pour différentes plateformes :

IronOCR avec Tesseract 5

L'exemple de code ci-dessous montre à quel point il est facile d'utiliser IronOCR Tesseract pour lire du texte à partir d'une image et effectuer une reconnaissance optique de caractères (OCR) en utilisant C#.

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
$vbLabelText   $csharpLabel

Si vous souhaitez un code plus robuste, les éléments suivants devraient vous aider à accomplir la même tâche :

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Image d'entrée

Install Tesseract, Figure 14: Input Image

Exemple d'image d'entrée pour le traitement IronOCR

Image de Sortie

Le résultat s'affiche sur la console comme suit :

Install Tesseract, Figure 15: Output Image

La console a renvoyé un message suite à l'exécution d'IronOCR sur l'image d'exemple.

Pourquoi choisir IronOCR ?

IronOCR est très facile à installer. Elle fournit une bibliothèque logicielle .NET complète et bien documentée.

IronOCR atteint un taux de précision de détection de texte de 99,8 % sans avoir besoin de bibliothèques tierces ni de services Web.

Il offre également une prise en charge du multithreading. Plus important encore, IronOCR peut fonctionner avec plus de 125 langues internationales.

Conclusion

Dans ce tutoriel, nous avons appris à télécharger et à installer Tesseract OCR sur un ordinateur Windows. Tesseract OCR est un excellent logiciel pour les développeurs C++, mais il présente certaines limitations. Il n'est pas entièrement développé for .NET. Les fichiers d'images numérisées ou les images photographiées doivent être traités et normalisés en haute résolution afin d'éliminer tout bruit numérique. Ce n'est qu'à cette condition que Tesseract pourra les traiter avec précision.

À l'inverse, IronOCR peut fonctionner avec n'importe quelle image fournie, qu'elle soit scannée ou photographiée, avec une seule ligne de code. IronOCR utilise également Tesseract comme moteur OCR interne, mais il est finement optimisé pour tirer le meilleur parti de Tesseract, spécialement conçu pour C#, avec des performances élevées et des fonctionnalités améliorées.

Vous pouvez télécharger le logiciel IronOCR à partir de ce lien .

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me