OUTILS OCR

Tesseract Ocr dans Windows (Tutoriel d'exemple de code)

Publié avril 7, 2022
Partager:

Qu'est-ce que Tesseract OCR ?

Tesseract est un moteur de reconnaissance optique de caractères qui peut être utilisé sur différents systèmes d'exploitation. Il s'agit d'un logiciel libre, publié sous la licence Apache. Dans ce guide, je vais vous présenter les étapes que j'ai suivies pour installer Tesseract sur ma machine Windows 10. La version majeure 5 est la version stable actuelle et a commencé avec la version 5.0. 0 le 30 novembre 2021.


Étape 1 : Installer Tesseract OCR dans Windows 10 en utilisant le fichier .exe :

Pour installer les données linguistiques : sudo port install tesseract -<langcode&gt ; Une liste de langcodes est disponible sur la page Homebrew de MacPorts Tesseract. La première étape de l'installation de Tesseract OCR pour Windows consiste à télécharger le programme d'installation .exe correspondant au système d'exploitation de votre machine

Étape 2 : Configuration de l'installation

Ensuite, nous devons configurer l'installation de Tesseract. Si vous êtes confiant et que vous ne souhaitez exécuter Tesseract OCR pour Windows qu'avec la langue par défaut, l'anglais, vous pouvez exécuter les écrans d'installation en sélectionnant toutes les options par défaut.

Langue de l'installateur

Il s'agit simplement de la langue des boîtes de dialogue et des informations d'aide. Si nous le souhaitons, nous pouvons exécuter Tesseract OCR pour Windows dans plusieurs langues :

Langue d'installation pour Tesseract OCR pour Windows

Tesseract OCR Setup

L'écran d'installation recommande de fermer toutes les autres applications avant de poursuivre l'installation.

L'écran d'installation de Tesseract OCR pour Windows.

Choisir l'emplacement de l'installation

Ensuite, nous allons choisir l'emplacement de l'installation. Avant de passer à l'étape suivante, veillez à copier l'emplacement de l'installation dans un fichier .txt. Nous devrons ajouter l'emplacement d'installation aux variables d'environnement de notre machine une fois l'installation terminée.

Choisissez l'emplacement de l'installation.

Choisir les composants

Par défaut, les données ScrollView, Training Tools, Shortcuts creation et Language sont toutes sélectionnées. À moins que vous n'ayez une raison particulière de ne pas les installer, nous souhaitons que tous ces éléments soient sélectionnés.

Composants d'installation par défaut de Tesseract OCR pour Windows.

Si nous faisons défiler la page vers le bas et développons la rubrique "Données de script supplémentaires", nous verrons que nous avons la possibilité de télécharger et d'installer des données de script supplémentaires. Cela peut être utile pour améliorer la précision de l'extraction de texte à partir de certaines langues écrites. C'est à vous de décider si vous voulez les installer.

Composants d'installation de scripts optionnels.

Choisissez le dossier du menu Démarrer

Dans la dernière étape de l'installation, on nous demandera de choisir le dossier du menu de démarrage pour les raccourcis de Tesseract OCR pour Windows. J'ai laissé le mien avec le nom par défaut : "Tesseract-OCR".

Choisissez le dossier du menu Démarrer pour les raccourcis de Tesseract OCR pour Windows.

Après avoir cliqué sur installer, Tesseract OCR pour Windows commencera à s'installer. L'étape suivante consiste à ajouter le chemin d'installation aux variables d'environnement de notre machine.

Étape 3 : Ajouter le chemin d'installation aux variables d'environnement

Panneau de contrôle

Pour ajouter l'emplacement d'installation à nos variables d'environnement, allez dans le menu Démarrer et cherchez "variables d'environnement". Vous devriez voir un résultat vous permettant d'éditer les variables d'environnement du système. Si ce n'est pas le cas, vous pouvez toujours suivre les étapes suivantes : Menu Démarrer > Panneau de configuration > Modifier les variables d'environnement du système.

Recherche de "variables d'environnement

Propriétés du système

Lorsque la boîte de dialogue "Propriétés du système" s'affiche, assurez-vous que l'onglet "Avancé" est cliqué, puis cliquez sur le bouton "Variables d'environnement" en bas à droite de l'écran.

Variables d'environnement

Sous les variables du système, nous cliquerons sur le bouton Editer.

Lorsque l'écran "Editer la variable d'environnement" s'affiche, cliquez sur le bouton Nouveau et collez le chemin d'installation de Tesseract OCR que nous avons copié plus tôt à l'étape 2. Une fois que vous avez fait cela, cliquez sur le bouton 'OK'.

Ajouter le répertoire d'installation de Tesseract OCR pour Windows aux variables d'environnement

C'est tout! Maintenant que nous avons exécuté le programme d'installation .exe et ajouté l'emplacement d'installation de Tesseract OCR pour Windows à nos variables d'environnement, nous pouvons tester que notre installation fonctionne en exécutant Tesseract sur une image de test.

Étape 4 : Exécuter Tesseract OCR pour Windows sur une image test

Pour vérifier que Tesseract OCR pour Windows a été installé avec succès, ouvrez l'invite de commande sur votre machine, puis exécutez la commande Tesseract. Vous devriez voir une sortie avec une explication rapide des options d'utilisation de Tesseract.

Vérification de la réussite de l'installation de Tesseract OCR pour Windows

Félicitations! Vous avez installé avec succès Tesseract OCR pour Windows sur votre machine.


Avantages de l'utilisation d'IronOCR pour effectuer le travail d'OCR :

IronOCR fournit Tesseract OCR sur Mac, Windows, Linux, Azure et Docker pour :

  • framework .NET 4.0 +
  • .NET Standard 2.0 +
  • .NET Core 2.0 +
  • .NET 5
  • Mono pour macOS et Linux
  • Xamarin pour macOS

    IronOCR lit le texte, les codes-barres et les codes QR à partir des principaux formats d'images et de PDF en utilisant le dernier moteur Tesseract 5. Cette bibliothèque permet d'ajouter des fonctionnalités d'OCR aux applications de bureau, aux consoles et aux applications Web en quelques minutes. Il prend en charge plus de 127 langues internationales. Licences démarrer à partir de $749.

Étape 1 : Installer la dernière version d'IronOCR

Installer la DLL

Télécharger le DLL IronOCR directement sur votre machine.

Installer NuGet

Vous pouvez également l'installer via NuGet.

Install-Package IronOcr

Étape 2 : Appliquer votre clé de licence

Définissez votre clé de licence IronOCR à l'aide du code

Ajoutez ce code au démarrage de votre application avant que IronOCR ne soit utilisé.

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
VB   C#

Étape 3 : Testez votre clé

Vérifiez que votre clé a été installée correctement.

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")
VB   C#

Démarrer le projet

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using
VB   C#

Comment utiliser l'OCR de Tesseract dans C# ; for .NET ?

  • Installer Google Tesseract et IronOCR for .NET dans Visual Studio
  • Vérifier les dernières versions en C#
  • Vérifier la précision et la compatibilité des images
  • Tester les performances et le fonctionnement de l'API
  • Envisager une prise en charge multilingue

Exemple de code pour l'utilisation de l'OCR en .NET - Extraction de texte à partir d'images en C# ;

Utilisez NuGet Package Manager pour installer le NuGet Package IronOCR dans votre solution Visual Studio.

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using
VB   C#

IronOCR Tesseract pour C&num ;

Avec IronOCR, l'installation de Tesseract se fait entièrement à l'aide du gestionnaire de paquets NuGet.

Install-Package IronOcr

Tesseract 5 API dans IronOCR Tesseract

À ce jour, IronTesseract est la seule mise en œuvre connue de Tesseract 5 pour .NET Framework ou Core.

// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
' using IronOcr;

Dim Ocr = New IronTesseract() ' nothing to configure

Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using
VB   C#

Tesseract 4 API dans IronOCR Tesseract

// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}
' using IronOcr;

Dim Ocr = New IronTesseract()

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4

Using Input = New OcrInput("images\image.png")


Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using
VB   C#

Pourquoi IronOCR est meilleur que Tesseract :

ACCURACY

TESSERACT :

Si Tesseract rencontre une image qui est tournée, de travers, avec un faible DPI, scannée ou avec un bruit de fond, il devient presque impossible pour Tesseract d'obtenir des données à partir de cette image. En outre, Tesseract prendra également beaucoup de temps pour traiter ce document avant de vous fournir des informations absurdes.

IRONOCR :

IronOCR vous débarrasse de ce casse-tête. Les utilisateurs atteignent souvent une précision de 99,8 à 100 % avec une configuration minimale.

COMPATIBILITÉ DES IMAGES

TESSERACT :

N'accepte que le format d'image Leptonica PIX qui est un objet IntPtr C++ en C#. Les objets PIX ne sont pas des mémoires gérées - et le fait de ne pas les manipuler avec soin en C# entraîne des fuites de mémoire.

IRONOCR :

Les images sont gérées en mémoire. PDF et Tiff pris en charge. Le système. Le dessin, le flux et le tableau d'octets sont inclus pour chaque format de fichier.

Broad image support:

  • Documents PDF
  • Pages PDF
  • Fichiers TIFF multi-trames
  • JPEG & JPEG2000
  • GIF
  • PNG
  • System.Drawing.Image
  • Image binaire Données (octet [])
  • Et bien d'autres encore...

PERFORMANCE

TESSERACT :

Google Tesseract peut produire des résultats rapides et précis s'il est correctement réglé et si les images d'entrée ont été prétraitées à l'aide de Photoshop ou d'ImageMagick.

IRONOCR :

La DLL Tesseract IronOCR .NET fonctionne avec précision et rapidité pour la plupart des images dès sa sortie de l'emballage. Nous avons mis en œuvre le multithreading afin d'utiliser les processeurs multicœurs que la plupart des machines utilisent aujourd'hui. Même les images à faible résolution fonctionnent généralement avec un degré élevé de précision dans votre programme. Aucun PhotoShop n'est nécessaire.

API

TESSERACT :

Deux choix s'offrent à nous :

  • Travailler avec les couches Interop - beaucoup de couches trouvées sur GitHub sont obsolètes, ont des tickets non résolus, des fuites de mémoire, et des avertissements Console. Peut ne pas prendre en charge .NET Core ou Standard.
  • Travailler avec la ligne de commande EXE - difficile à déployer et constamment interrompu par les scanners de virus et les politiques de sécurité.

IRONOCR :

Une bibliothèque .NET gérée et testée pour Tesseract appelée IronTesseract.

Entièrement documenté avec support IntelliSense.

LANGUE

TESSERACT :

Ne prend en charge que 100 langues.

IRONOCR :

Prise en charge de plus de 127 langues.


Conclusion

Tesseract est une excellente ressource pour les développeurs C#, mais ce n'est pas une bibliothèque OCR complète pour .NET. Les images scannées ou photographiées doivent être traitées de manière à être orthogonales, normalisées, à haute résolution et exemptes de bruit numérique avant que Tesseract ne puisse les utiliser avec précision.

En revanche, IronOCR peut faire tout cela et bien plus encore, avec une seule ligne de code. Il est vrai qu'IronOCR utilise Tesseract pour son moteur OCR interne, un Tesseract très finement ajusté, construit pour C#, avec de nombreuses améliorations de performance et des fonctionnalités ajoutées en standard.

< PRÉCÉDENT
Convertisseur OCR en ligne - Outils en ligne gratuits
SUIVANT >
OCR dans Windows 11 (Outils gratuits en ligne)