Passer au contenu du pied de page
OUTILS OCR
Comment installer Tesseract OCR sur Windows en C#

Installer Tesseract (Tutoriel étape par étape avec images)

Qu'est-ce que Tesseract OCR ?

Tesseract est une bibliothèque logicielle open-source, publiée selon l'accord de licence Apache. Elle a été initialement développée par Hewlett Packard dans les années 1980. C'est un outil de reconnaissance de texte principalement utilisé pour identifier et extraire des textes à partir d'images. Tesseract OCR fournit une interface de commande pour effectuer cette fonctionnalité.

Comment télécharger Tesseract OCR sur Windows

  1. Télécharger le programme d'installation de Tesseract pour Windows
  2. Installer Tesseract OCR
  3. Ajouter le chemin d'installation aux Variables d'Environnement
  4. Exécuter Tesseract OCR

1. Télécharger le programme d'installation de Tesseract pour Windows

Pour utiliser la commande Tesseract sur Windows, nous devons d'abord télécharger le programme d'installation Windows des binaires Tesseract OCR.

Il y a de nombreux endroits où vous pouvez télécharger la dernière version de Tesseract OCR. One such place is from UB Mannheim, which is forked from tesseract-ocr/tesseract (Main Repository).

Install Tesseract, Figure 1: Wiki Tesseract

Wiki Tesseract

Download the tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bit) Windows Installer.

Pour les utilisateurs de macOS, Tesseract peut être installé dans le terminal en utilisant l'une des commandes ci-dessous :

brew install tesseract
brew install tesseract
SHELL
sudo port install tesseract
sudo port install tesseract
SHELL

2. Installer Tesseract OCR

Ensuite, nous allons installer Tesseract en utilisant le fichier .exe que nous avons téléchargé à l'étape précédente. Lancez le programme d'installation .exe pour commencer l'installation de Tesseract.

Langue de l'Installateur

Une fois le dépaquetage de la configuration terminé, la boîte de dialogue de données de langue de l'installateur apparaîtra. Vous pouvez installer Tesseract pour utiliser plusieurs langues en sélectionnant des packs de langues supplémentaires, mais ici, nous installerons simplement les données de langue pour l'anglais.

Install Tesseract, Figure 2: Programme d'installation de Tesseract

Programme d'installation de Tesseract

Cliquez sur OK, et la langue de l'installateur pour Tesseract OCR est définie.

Configuration de Tesseract OCR

Ensuite, l'assistant de configuration apparaîtra. Cet Assistant de Configuration vous guidera pour l'installation de Tesseract pour Windows.

Install Tesseract, Figure 3: Tesseract OCR

Assistant de Configuration Tesseract OCR

Cliquez sur Suivant pour continuer l'installation.

Accepter l'Accord de Licence

Tesseract OCR est sous licence Apache License Version 2.0. Étant open source et gratuit à utiliser, vous pouvez redistribuer et modifier les versions de Tesseract sans aucune inquiétude de redevances.

Install Tesseract, Figure 4: Tesseract License

Tesseract OCR est sous licence Apache License v2.0. Veuillez accepter cette licence pour continuer l'installation.

Cliquez sur J'accepte pour procéder à l'installation.

Choisir les Utilisateurs

Vous pouvez choisir d'installer Tesseract pour plusieurs utilisateurs ou pour un seul utilisateur.

Install Tesseract, Figure 5: Tesseract Choose Users

Choisissez d'installer Tesseract OCR pour l'Utilisateur Actuel (vous) ou pour tous les comptes utilisateur

Cliquez sur Suivant pour choisir les composants à installer avec Tesseract.

Choisir les Composants

À partir de la liste des composants à installer, ScrollView, Outils de Formation, Création de Raccourcis, et Données de Langues sont tous sélectionnés par défaut. Nous garderons toutes les options sélectionnées par défaut. Vous pouvez choisir ou ignorer n'importe quel composant en fonction des besoins. Habituellement, tous sont nécessaires à l'installation.

Install Tesseract, Figure 6: Tesseract Components

Ici, vous pouvez choisir d'inclure ou d'exclure les composants de Tesseract OCR. Pour de meilleurs résultats, continuez l'installation avec les composants par défaut sélectionnés.

Cliquez sur Suivant pour choisir l'emplacement d'installation.

Choisir l'Emplacement d'Installation

Ensuite, nous choisirons l'emplacement pour installer Tesseract. Assurez-vous de copier le chemin du dossier de destination. Nous en aurons besoin plus tard pour ajouter l'emplacement d'installation au chemin des Variables d'Environnement de la machine.

Install Tesseract, Figure 7: Tesseract Install Location

Sélectionnez un emplacement d'installation pour la bibliothèque Tesseract OCR, et souvenez-vous de cet emplacement pour plus tard.

Cliquez sur Suivant pour continuer la configuration de l'installation de Tesseract.

Choisir le Dossier du Menu Démarrer

C'est la dernière étape dans laquelle nous allons créer des raccourcis dans le menu Démarrer. Vous pouvez nommer le dossier comme vous le souhaitez, mais je l'ai gardé tel quel par défaut.

Install Tesseract, Figure 8: Tesseract Start Menu

Choisissez le nom du Dossier du Menu Démarrer de Tesseract OCR

Maintenant, cliquez sur Installer et attendez que l'installation soit terminée. Une fois l'installation terminée, l'écran suivant apparaîtra. Cliquez sur Terminer, et nous avons terminé l'installation de Tesseract OCR sur Windows avec succès.

Install Tesseract, Figure 9: Programme d'installation de Tesseract

L'installation de Tesseract OCR est maintenant complète.

3. Ajouter le Chemin d'Installation aux Variables d'Environnement Système

Maintenant, nous allons ajouter le chemin d'installation de Tesseract aux Variables d'Environnement de Windows.

Dans le menu Démarrer, tapez "variables d'environnement" ou "paramètres système avancés"

Install Tesseract, Figure 10: System Path Variables

La Boîte de Dialogue des Propriétés Système de Windows

Propriétés Système

Une fois la boîte de dialogue des Propriétés Système ouverte, cliquez sur l'onglet Avancé, puis cliquez sur le bouton Variables d'Environnement, situé vers le bas à droite de l'écran.

La boîte de dialogue des Variables d'Environnement vous sera présentée.

Variables d'Environnement

Sous variables système, cliquez sur la variable Chemin.

Install Tesseract, Figure 11: Environment Variables

Accéder aux Variables d'Environnement Système de Windows

Maintenant, cliquez sur Modifier.

Ajouter le Répertoire d'Installation de Tesseract OCR pour Windows aux Variables d'Environnement

Dans la boîte de dialogue Modifier la variable d'environnement, cliquez sur Nouveau. Collez le chemin de l'emplacement d'installation qui a été copié pendant la deuxième étape, et cliquez sur OK.

Install Tesseract, Figure 12: Edit Environment Variable

Modifiez la Variable Système de Chemin de Windows en ajoutant une entrée qui inclut le chemin absolu vers l'installation de Tesseract OCR

C'est tout ! Nous avons téléchargé, installé et configuré la variable d'environnement avec succès pour Tesseract OCR sur une machine Windows.

4. Exécuter Tesseract OCR

Pour vérifier que Tesseract OCR pour Windows a été correctement installé et ajouté aux Variables d'Environnement, ouvrez l'invite de commande (cmd) sur votre machine Windows, puis exécutez la commande "tesseract". Si tout s'est bien passé, un guide d'utilisation rapide doit s'afficher avec OCR et d'autres options individuelles telles que la version de Tesseract.

Install Tesseract, Figure 13: Edit Environment Variable

Exécutez la commande tesseract dans l'invite de commande Windows (ou Windows Powershell) pour vous assurer que les étapes d'installation ci-dessus ont été correctement effectuées. La sortie du terminal est le résultat attendu d'une installation réussie sur Windows.

Félicitations ! Nous avons installé avec succès Tesseract OCR pour Windows.

Bibliothèque IronOCR

IronOCR est une bibliothèque C# basée sur Tesseract qui permet aux développeurs de logiciels .NET d'identifier et d'extraire du texte à partir d'images et de documents PDF. Elle est entièrement construite en .NET, utilisant le moteur Tesseract le plus avancé connu partout.

Installer avec le Gestionnaire de Paquets NuGet

L'installation d'IronOCR dans Visual Studio ou en utilisant la ligne de commande avec le Gestionnaire de Paquets NuGet est simple. Dans Visual Studio, accédez aux options de menu avec :

Outils > Gestionnaire de Paquets NuGet > Console du Gestionnaire de Paquets

Puis, dans la ligne de commande, tapez la commande suivante :

Install-Package IronOcr

Cela installera IronOCR facilement, et maintenant vous pouvez l'utiliser pour exploiter tout son potentiel.

Vous pouvez également télécharger d'autres Paquets NuGet IronOCR pour différentes plateformes :

IronOCR avec Tesseract 5

Le code d'exemple ci-dessous montre à quel point il est facile d'utiliser IronOCR Tesseract pour lire du texte à partir d'une image et effectuer l'OCR en utilisant C#.

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

string Text = Ocr.Read(@"test-files/redacted-employmentapp.png").Text;

// Output the extracted text to the console
Console.WriteLine(Text); // Printed text
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

Private Text As String = Ocr.Read("test-files/redacted-employmentapp.png").Text

' Output the extracted text to the console
Console.WriteLine(Text) ' Printed text
$vbLabelText   $csharpLabel

Si vous souhaitez un code plus robuste, alors la suite devrait vous aider à atteindre le même objectif :

// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the IronOCR library
using IronOcr;

// Create an instance of IronTesseract
var Ocr = new IronTesseract();

// Using the OcrInput class to handle multiple images
using (var Input = new OcrInput()){
    // Add an image to the input collection
    Input.AddImage("test-files/redacted-employmentapp.png");
    // You can add any number of images

    // Read the OCR text from the input
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the IronOCR library
Imports IronOcr

' Create an instance of IronTesseract
Private Ocr = New IronTesseract()

' Using the OcrInput class to handle multiple images
Using Input = New OcrInput()
	' Add an image to the input collection
	Input.AddImage("test-files/redacted-employmentapp.png")
	' You can add any number of images

	' Read the OCR text from the input
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

Données des employés expurgées

Install Tesseract, Figure 14: Input Image

Exemple d'image d'entrée pour le traitement IronOCR

Image de Sortie

La sortie est imprimée sur la console comme :

Install Tesseract, Figure 15: Output Image

La console renvoyée après l'exécution d'IronOCR sur l'image d'exemple.

Pourquoi Choisir IronOCR ?

IronOCR est très facile à installer. Il fournit une bibliothèque logicielle .NET complète et bien documentée.

IronOCR atteint un taux de précision de détection de texte de 99,8% sans avoir besoin d'autres bibliothèques tierces ou de services web.

Il offre également une prise en charge du multithreading. Le plus important, IronOCR peut fonctionner avec plus de 125 langues internationales.

Conclusion

Dans ce tutoriel, nous avons appris comment télécharger et installer Tesseract OCR pour une machine Windows. Tesseract OCR est un excellent logiciel pour les développeurs C++, mais il présente certaines limites. Il n'est pas entièrement développé pour .NET. Les fichiers d'images scannées ou les images photographiées doivent être traités et standardisés en haute résolution, les garder sans bruit numérique. Ce n'est qu'alors que Tesseract peut fonctionner avec précision sur eux.

En revanche, IronOCR peut travailler avec n'importe quelle image fournie, qu'elle soit scannée ou photographiée, avec une seule ligne de code. IronOCR utilise également Tesseract comme moteur OCR interne, mais il est finement réglé pour tirer le meilleur parti de Tesseract, spécialement conçu pour C#, avec des performances élevées et des fonctionnalités améliorées.

Vous pouvez télécharger le produit logiciel IronOCR à partir de ce lien.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite