Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Tesseract est une bibliothèque logicielle open-source, publiée sous l'accord de licence Apache. Il a été développé à l'origine par Hewlett Packard dans les années 1980. Il s'agit d'un outil de reconnaissance de texte principalement utilisé pour identifier et extraire des textes à partir d'images. Tesseract OCR fournit une interface d'invite de commande pour exécuter cette fonctionnalité.
Télécharger le programme d'installation de Tesseract pour Windows
Installer Tesseract OCR
Ajouter le chemin d'installation aux variables d'environnement
Pour utiliser la commande Tesseract sous Windows, il faut d'abord télécharger les binaires Tesseract OCR .exe Windows Installer.
Il existe de nombreux endroits où l'on peut télécharger la dernière version de Tesseract OCR. Une fois ce lieu est de UB Mannheimqui est dérivé de tesseract-ocr/tesseract (Référentiel principal).
Télécharger le tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 bits) Installateur Windows.
Tesseract peut être installé dans l'invite Python sur macOS en utilisant l'une ou l'autre des commandes ci-dessous :
brew install tesseract
sudo port install tesseract
Ensuite, nous allons installer Tesseract à l'aide du fichier .exe que nous avons téléchargé à l'étape précédente. Lancez le programme d'installation .exe pour démarrer l'installation de Tesseract.
Une fois le déballage de l'installation terminé, la boîte de dialogue des données linguistiques de l'installateur apparaît. Vous pouvez installer Tesseract pour utiliser plusieurs langues en sélectionnant des packs de langues supplémentaires, mais ici nous n'installerons que les données linguistiques pour la langue anglaise.
Cliquez sur OK et la langue d'installation de Tesseract OCR est définie.
L'assistant de configuration apparaît ensuite. Cet assistant d'installation guidera l'installation de Tesseract pour Windows.
Cliquez sur Suivant pour poursuivre l'installation.
Tesseract OCR est sous licence Apache License Version 2.0. Comme il s'agit d'un logiciel libre et gratuit, vous pouvez redistribuer et modifier les versions de Tesseract sans souci de loyauté.
Cliquez sur J'accepte pour procéder à l'installation.
Vous pouvez choisir d'installer Tesseract pour plusieurs utilisateurs ou pour un seul.
Cliquez sur Suivant pour choisir les composants à installer avec Tesseract.
Dans la liste des composants à installer, ScrollView, Training Tools, Shortcuts creation et Language data sont sélectionnés par défaut. Nous conserverons toutes les options sélectionnées par défaut. Vous pouvez choisir n'importe quel composant ou l'ignorer en fonction de vos besoins. En général, tous sont nécessaires à l'installation.
Cliquez sur Suivant pour choisir l'emplacement de l'installation.
Ensuite, nous allons choisir l'endroit où installer Tesseract. Veillez à copier le chemin du dossier de destination. Nous en aurons besoin plus tard pour ajouter l'emplacement de l'installation à la variable d'environnement path de la machine.
Cliquez sur Suivant pour poursuivre l'installation de Tesseract.
Il s'agit de la dernière étape dans laquelle nous allons créer des raccourcis dans le menu Démarrer. Vous pouvez donner n'importe quel nom à ce dossier, mais je l'ai conservé par défaut.
Cliquez ensuite sur Installer et attendez la fin de l'installation. Une fois l'installation terminée, l'écran suivant apparaît. Cliquez sur Terminer et l'installation de Tesseract OCR sous Windows est terminée.
Nous allons maintenant ajouter le chemin d'installation de Tesseract aux variables d'environnement de Windows.
Dans le menu Démarrer, tapez "variables d'environnement" ou "paramètres système avancés"
Lorsque la boîte de dialogue Propriétés du système s'ouvre, cliquez sur Avancé, puis sur le bouton Variables d'environnement, situé en bas à droite de l'écran.
La boîte de dialogue Variables d'environnement vous est présentée.
Sous Variables système, cliquez sur la variable Chemin d'accès.
Cliquez ensuite sur Modifier.
Dans la boîte de dialogue Modifier une variable d'environnement, cliquez sur Nouveau. Collez le chemin d'accès à l'emplacement d'installation qui a été copié au cours de la deuxième étape, et cliquez sur OK.
C'est tout! Nous avons téléchargé, installé et défini la variable d'environnement pour Tesseract OCR dans une machine Windows.
Pour vérifier que Tesseract OCR pour Windows a bien été installé et ajouté aux variables d'environnement, ouvrez l'invite de commande(cmd) sur votre machine Windows, puis lancez la commande "tesseract ". Si tout a bien fonctionné, un guide d'utilisation rapide doit être affiché avec l'OCR et les options individuelles telles que la version de Tesseract.
Félicitations! Nous avons installé avec succès Tesseract OCR pour Windows.
IronOCR est une bibliothèque C# basée sur Tesseract qui permet aux développeurs de logiciels .NET d'identifier et d'extraire du texte à partir d'images et de documents PDF. Il est entièrement construit en .NET, en utilisant le moteur Tesseract le plus avancé que l'on connaisse.
L'installation d'IronOCR dans Visual Studio ou en ligne de commande avec le gestionnaire de paquets NuGet est très facile. Dans Visual Studio, accédez aux options du menu avec :
Outils > NuGet Package Manager > Console du gestionnaire de paquets
Ensuite, dans la ligne de commande, tapez la commande suivante :
Install-Package IronOcr
Ceci installera IronOCR facilement et vous pourrez maintenant l'utiliser pour en extraire tout le potentiel.
Vous pouvez également télécharger d'autres Packages NuGet IronOCR pour différentes plateformes :
L'exemple de code ci-dessous montre comment il est facile d'utiliser IronOCR Tesseract pour lire du texte à partir d'une image et effectuer l'OCR en utilisant C#.
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
string Text = new IronTesseract().Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(Text); // Printed text
Dim Text As String = (New IronTesseract()).Read("test-files/redacted-employmentapp.png").Text
Console.WriteLine(Text) ' Printed text
Si vous souhaitez un code plus robuste, les éléments suivants devraient vous aider à réaliser la même tâche :
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput()){
Input.AddImage("test-files/redacted-employmentapp.png");
// you can add any number of images
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddImage("test-files/redacted-employmentapp.png")
' you can add any number of images
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
La sortie est imprimée sur la console sous la forme suivante :
IronOCR est très facile à installer. Il fournit une bibliothèque logicielle .NET complète et bien documentée.
IronOCR atteint un taux de précision de détection de texte de 99,8 % sans avoir recours à d'autres bibliothèques tierces ou services web.
Il prend également en charge le multithreading. Plus important encore, IronOCR peut travailler avec plus de 125 langues internationales.
Dans ce tutoriel, nous avons appris comment télécharger et installer Tesseract OCR sur une machine Windows. Tesseract OCR est un excellent logiciel pour les développeurs C# mais il a cependant quelques limites. Il n'est pas entièrement développé pour .NET. Les fichiers d'images scannées ou photographiées doivent être traités et normalisés en haute résolution, sans bruit numérique. Ce n'est qu'ensuite que Tesseract peut les traiter avec précision.
En revanche, IronOCR peut travailler avec n'importe quelle image fournie, qu'elle soit scannée ou photographiée, avec une seule ligne de code. IronOCR utilise également Tesseract comme moteur d'OCR interne, mais il est très finement réglé pour tirer le meilleur parti de Tesseract spécialement conçu pour C#, avec une performance élevée et des fonctionnalités améliorées.
Vous pouvez télécharger le logiciel IronOCR à partir de l'adresse suivantelien.
10 produits API .NET pour vos documents de bureau