OUTILS OCR

Installer Tesseract (Tutoriel étape par étape avec images)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

janvier 27, 2023

Qu'est-ce que Tesseract OCR ?

Tesseract est une bibliothèque logicielle open-source, publiée sous l'accord de licence Apache. Il a été développé à l'origine par Hewlett Packard dans les années 1980. Il s'agit d'un outil de reconnaissance de texte principalement utilisé pour identifier et extraire des textes à partir d'images. Tesseract OCR fournit une interface d'invite de commande pour exécuter cette fonctionnalité.

IronOCR is built on top of Tesseract. Read texts from images and PDFs with 99.8% accuracy with just a few lines of code (without relying on external web services). IronOCR extracts content from poor quality images and scans as well. Say goodbye to cumbersome performance tuning and tedious preprocessing work. Trust IronOCR to do the job quickly when speed, accuracy, and ease of use matters.

Learn more about IronOCR's features or today!

Comment télécharger Tesseract OCR sous Windows ?

Télécharger le programme d'installation de Tesseract pour Windows
Installer Tesseract OCR
Ajouter le chemin d'installation aux variables d'environnement
Lancer l'OCR Tesseract

1. Télécharger le programme d'installation de Tesseract pour Windows

Pour utiliser la commande Tesseract sous Windows, il faut d'abord télécharger les binaires Tesseract OCR .exe Windows Installer.

Il existe de nombreux endroits où l'on peut télécharger la dernière version de Tesseract OCR. Un tel endroit est tesseract-ocr/tesseract (Dépôt Principal).

Tesseract Wiki

Téléchargez le tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bits) Installateur Windows.

Tesseract peut être installé dans l'invite Python sur macOS en utilisant l'une ou l'autre des commandes ci-dessous :

brew install tesseract

sudo port install tesseract

2. Installer Tesseract OCR

Ensuite, nous allons installer Tesseract à l'aide du fichier .exe que nous avons téléchargé à l'étape précédente. Lancez le programme d'installation .exe pour démarrer l'installation de Tesseract.

Langue de l'installateur

Une fois le déballage de l'installation terminé, la boîte de dialogue des données linguistiques de l'installateur apparaît. Vous pouvez installer Tesseract pour utiliser plusieurs langues en sélectionnant des packs de langues supplémentaires, mais ici nous n'installerons que les données linguistiques pour la langue anglaise.

Installateur Tesseract

Cliquez sur OK et la langue d'installation de Tesseract OCR est définie.

Tesseract OCR Setup

L'assistant de configuration apparaît ensuite. Cet assistant d'installation guidera l'installation de Tesseract pour Windows.

Assistant de configuration de l'OCR Tesseract

Cliquez sur Suivant pour poursuivre l'installation.

Accepter l'accord de licence

Tesseract OCR est sous licence Apache License Version 2.0. Comme il s'agit d'un logiciel libre et gratuit, vous pouvez redistribuer et modifier les versions de Tesseract sans souci de loyauté.

Tesseract OCR est sous licence Apache License v2.0. Veuillez accepter cette licence pour poursuivre l'installation.

Cliquez sur J'accepte pour procéder à l'installation.

Choisir les utilisateurs

Vous pouvez choisir d'installer Tesseract pour plusieurs utilisateurs ou pour un seul.

Choisissez d'installer Tesseract OCR pour l'utilisateur actuel (vous) ou pour tous les comptes utilisateurs

Cliquez sur Suivant pour choisir les composants à installer avec Tesseract.

Choisir les composants

Dans la liste des composants à installer, ScrollView, Training Tools, Shortcuts creation et Language data sont sélectionnés par défaut. Nous conserverons toutes les options sélectionnées par défaut. Vous pouvez choisir n'importe quel composant ou l'ignorer en fonction de vos besoins. En général, tous sont nécessaires à l'installation.

Ici, vous pouvez choisir d'inclure ou d'exclure les composants de Tesseract OCR. Pour obtenir les meilleurs résultats, poursuivez l'installation en sélectionnant les composants par défaut.

Cliquez sur Suivant pour choisir l'emplacement de l'installation.

Choisir le lieu d'installation

Ensuite, nous allons choisir l'endroit où installer Tesseract. Veillez à copier le chemin du dossier de destination. Nous en aurons besoin plus tard pour ajouter l'emplacement de l'installation à la variable d'environnement path de la machine.

Sélectionnez un emplacement d'installation pour la bibliothèque Tesseract OCR, et mémorisez cet emplacement pour plus tard.

Cliquez sur Suivant pour poursuivre l'installation de Tesseract.

Il s'agit de la dernière étape dans laquelle nous allons créer des raccourcis dans le menu Démarrer. Vous pouvez donner n'importe quel nom à ce dossier, mais je l'ai conservé par défaut.

Choisissez le nom du dossier du menu de démarrage de Tesseract OCR

Cliquez ensuite sur Installer et attendez la fin de l'installation. Une fois l'installation terminée, l'écran suivant apparaît. Cliquez sur Terminer et l'installation de Tesseract OCR sous Windows est terminée.

L'installation de Tesseract OCR est maintenant terminée.

3. Ajouter le chemin d'installation aux variables d'environnement du système

Nous allons maintenant ajouter le chemin d'installation de Tesseract aux variables d'environnement de Windows.

Dans le menu Démarrer, tapez "variables d'environnement" ou "paramètres système avancés"

La boîte de dialogue des propriétés du système Windows

Propriétés du système

Lorsque la boîte de dialogue Propriétés du système s'ouvre, cliquez sur Avancé, puis sur le bouton Variables d'environnement, situé en bas à droite de l'écran.

La boîte de dialogue Variables d'environnement vous est présentée.

Variables d'environnement

Sous Variables système, cliquez sur la variable Path.

Accès aux variables d'environnement du système Windows

Cliquez ensuite sur Modifier.

Ajouter le répertoire d'installation de Tesseract OCR pour Windows aux variables d'environnement

Dans la boîte de dialogue Modifier la variable d'environnement, cliquez sur Nouveau. Collez le chemin de l'emplacement d'installation qui a été copié lors de la deuxième étape, puis cliquez sur OK.

Modifiez la variable d'environnement du système Path de Windows en ajoutant une entrée qui inclut le chemin absolu vers l'installation de Tesseract OCR

C'est tout ! Nous avons téléchargé, installé et défini la variable d'environnement pour Tesseract OCR dans une machine Windows.

4. Lancer l'OCR Tesseract

Pour vérifier que Tesseract OCR pour Windows a été installé avec succès et ajouté aux variables d'environnement, ouvrez l'invite de commande (cmd) sur votre machine Windows, puis exécutez la commande "tesseract". Si tout a bien fonctionné, un guide d'utilisation rapide doit être affiché avec l'OCR et les options individuelles telles que la version de Tesseract.

Exécutez la commande tesseract dans l'invite de commandes Windows (ou Windows Powershell) pour vous assurer que les étapes d'installation ci-dessus ont été effectuées correctement. La sortie de la console est le résultat attendu d'une installation réussie sur Windows.

Félicitations ! Nous avons installé avec succès Tesseract OCR pour Windows.

Bibliothèque IronOCR

IronOCR est une bibliothèque C# basée sur Tesseract qui permet aux développeurs de logiciels .NET d'identifier et d'extraire du texte à partir d'images et de documents PDF. Il est entièrement construit en .NET, en utilisant le moteur Tesseract le plus avancé que l'on connaisse.

Installation avec NuGet Package Manager

L'installation d'IronOCR dans Visual Studio ou en ligne de commande avec le gestionnaire de paquets NuGet est très facile. Dans Visual Studio, accédez aux options du menu avec :

Outils > NuGet Package Manager > Console du gestionnaire de paquets

Ensuite, dans la ligne de commande, tapez la commande suivante :

Install-Package IronOcr

Ceci installera IronOCR facilement et vous pourrez maintenant l'utiliser pour en extraire tout le potentiel.

Vous pouvez également télécharger d'autres packages NuGet IronOCR pour différentes plateformes :

Windows : https://www.nuget.org/packages/IronOcr
Linux : https://www.nuget.org/packages/IronOcr.Linux
MacOs : https://www.nuget.org/packages/IronOcr.MacOs
MacOs ARM https://www.nuget.org/packages/IronOcr.MacOs.ARM

IronOCR avec Tesseract 5

L'exemple de code ci-dessous montre comment il est facile d'utiliser IronOCR Tesseract pour lire du texte à partir d'une image et effectuer l'OCR en utilisant C#.

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text

string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text

Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text

$vbLabelText $csharpLabel

Si vous souhaitez un code plus robuste, les éléments suivants devraient vous aider à réaliser la même tâche :

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
    Input.AddImage("test-files/redacted-employmentapp.png");
    // you can add any number of images
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddImage("test-files/redacted-employmentapp.png")
	' you can add any number of images
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

Image d'entrée

Exemple d'image d'entrée pour le traitement IronOCR

Image de la sortie

La sortie est imprimée sur la console sous la forme suivante :

La console renvoyée par l'exécution d'IronOCR sur l'image d'exemple.

Pourquoi choisir IronOCR ?

IronOCR est très facile à installer. Il fournit une bibliothèque logicielle .NET complète et bien documentée.

IronOCR atteint un taux de précision de détection de texte de 99,8% sans avoir besoin d'autres bibliothèques tierces ou services web.

Il prend également en charge le multithreading. Plus important encore, IronOCR peut travailler avec plus de 125 langues internationales.

pour vos prochains projets OCR afin de découvrir toutes ses capacités par vous-même. Une offre un accès libre et illimité à toutes les capacités d'IronOCR pendant 30 jours.

Conclusion

Dans ce tutoriel, nous avons appris comment télécharger et installer Tesseract OCR sur une machine Windows. Tesseract OCR est un excellent logiciel pour les développeurs C# mais il a cependant quelques limites. Il n'est pas entièrement développé pour .NET. Les fichiers d'images scannées ou photographiées doivent être traités et normalisés en haute résolution, sans bruit numérique. Ce n'est qu'ensuite que Tesseract peut les traiter avec précision.

En revanche, IronOCR peut travailler avec n'importe quelle image fournie, qu'elle soit scannée ou photographiée, avec une seule ligne de code. IronOCR utilise également Tesseract comme moteur d'OCR interne, mais il est très finement réglé pour tirer le meilleur parti de Tesseract spécialement conçu pour C#, avec une performance élevée et des fonctionnalités améliorées.

Vous pouvez télécharger le produit logiciel IronOCR depuis ce lien.

Kannapat Udonpant

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.

< PRÉCÉDENT
Outils OCR de Microsoft (alternatives en C#)

SUIVANT >
OCR à partir de PDF (outils en ligne gratuits)