OUTILS OCR

Tesseract Ocr dans Windows (Tutoriel d'exemple de code)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

avril 7, 2022

Qu'est-ce que Tesseract OCR ?

Tesseract est un moteur de reconnaissance optique de caractères qui peut être utilisé sur différents systèmes d'exploitation. Il s'agit d'un logiciel libre, publié sous la licence Apache. Dans ce guide, je vais vous présenter les étapes que j'ai suivies pour installer Tesseract sur ma machine Windows 10. La version majeure 5 est la version stable actuelle et a commencé avec la version 5.0. 0 le 30 novembre 2021.

Comment utiliser l'OCR Tesseract sous Windows

Installer Tesseract OCR sur Windows 10 à l'aide d'un fichier .exe
Configurer l'installation de Tesseract
Ajouter le chemin d'installation aux variables d'environnement
Exécutez Tesseract OCR pour Windows sur une image de test
Utilisez la bibliothèque C# pour des API plus intuitives et des méthodes avancées sous Windows

Étape 1 : Installer Tesseract OCR dans Windows 10 en utilisant le fichier .exe :

Pour installer les données linguistiques : sudo port install tesseract -<langcode> Une liste de langcodes se trouve sur la page Tesseract de MacPorts Homebrew. La première étape de l'installation de Tesseract OCR pour Windows consiste à télécharger le programme d'installation .exe correspondant au système d'exploitation de votre machine

Étape 2 : Configuration de l'installation

Ensuite, nous devons configurer l'installation de Tesseract. Si vous êtes confiant et que vous ne souhaitez exécuter Tesseract OCR pour Windows qu'avec la langue par défaut, l'anglais, vous pouvez exécuter les écrans d'installation en sélectionnant toutes les options par défaut.

Langue de l'installateur

Il s'agit simplement de la langue des boîtes de dialogue et des informations d'aide. Si nous le souhaitons, nous pouvons exécuter Tesseract OCR pour Windows dans plusieurs langues :

Langue d'installation pour Tesseract OCR pour Windows

Tesseract OCR Setup

L'écran d'installation recommande de fermer toutes les autres applications avant de poursuivre l'installation.

L'écran d'installation de Tesseract OCR pour Windows.

Choisir l'emplacement de l'installation

Ensuite, nous allons choisir l'emplacement de l'installation. Avant de passer à l'étape suivante, veillez à copier l'emplacement de l'installation dans un fichier .txt. Nous devrons ajouter l'emplacement d'installation aux variables d'environnement de notre machine une fois l'installation terminée.

Choisissez l'emplacement de l'installation.

Choisir les composants

Par défaut, les données ScrollView, Training Tools, Shortcuts creation et Language sont toutes sélectionnées. À moins que vous n'ayez une raison particulière de ne pas les installer, nous souhaitons que tous ces éléments soient sélectionnés.

Composants d'installation par défaut de Tesseract OCR pour Windows.

Si nous faisons défiler la page vers le bas et développons la rubrique "Données de script supplémentaires", nous verrons que nous avons la possibilité de télécharger et d'installer des données de script supplémentaires. Cela peut être utile pour améliorer la précision de l'extraction de texte à partir de certaines langues écrites. C'est à vous de décider si vous voulez les installer.

Composants d'installation de scripts optionnels.

Dans la dernière étape de l'installation, on nous demandera de choisir le dossier du menu de démarrage pour les raccourcis de Tesseract OCR pour Windows. J'ai laissé le mien avec le nom par défaut : "Tesseract-OCR".

Choisissez le dossier du menu Démarrer pour les raccourcis de Tesseract OCR pour Windows.

Après avoir cliqué sur installer, Tesseract OCR pour Windows commencera à s'installer. L'étape suivante consiste à ajouter le chemin d'installation aux variables d'environnement de notre machine.

Étape 3 : Ajouter le chemin d'installation aux variables d'environnement

Panneau de contrôle

Pour ajouter l'emplacement d'installation à nos variables d'environnement, allez dans le menu Démarrer et cherchez "variables d'environnement". Vous devriez voir un résultat vous permettant d'éditer les variables d'environnement du système. Si vous ne le faites pas, vous pouvez toujours utiliser les étapes suivantes : Menu Démarrer > Panneau de configuration > Modifier les variables d'environnement système.

Recherche de "variables d'environnement

Propriétés du système

Lorsque la boîte de dialogue "Propriétés du système" s'affiche, assurez-vous que l'onglet "Avancé" est cliqué, puis cliquez sur le bouton "Variables d'environnement" en bas à droite de l'écran.

Variables d'environnement

Sous les variables système, nous cliquerons sur le bouton Modifier.

Lorsque vous êtes sur l'écran "Modifier la variable d'environnement", cliquez sur le bouton Nouveau et collez le chemin d'installation de votre Tesseract OCR que nous avons copié plus tôt à l'étape 2. Une fois que vous avez fait cela, cliquez sur le bouton 'OK'.

Ajouter le répertoire d'installation de Tesseract OCR pour Windows aux variables d'environnement

C'est tout ! Maintenant que nous avons exécuté le programme d'installation .exe et ajouté l'emplacement d'installation de Tesseract OCR pour Windows à nos variables d'environnement, nous pouvons tester que notre installation fonctionne en exécutant Tesseract sur une image de test.

Étape 4 : Exécuter Tesseract OCR pour Windows sur une image test

Pour tester que Tesseract OCR pour Windows a été installé avec succès, ouvrez l'invite de commande sur votre machine, puis exécutez la commande Tesseract. Vous devriez voir une sortie avec une explication rapide des options d'utilisation de Tesseract.

Vérification de la réussite de l'installation de Tesseract OCR pour Windows

Félicitations ! Vous avez installé avec succès Tesseract OCR pour Windows sur votre machine.

Avantages de l'utilisation d'IronOCR pour effectuer le travail d'OCR :

IronOCR offre Tesseract OCR sur Mac, Windows, Linux, Azure et Docker pour :

framework .NET 4.0 +
.NET Standard 2.0 +
.NET Core 2.0 +
.NET 5
Mono pour macOS et Linux
Xamarin pour macOS

IronOCR lit le texte, les codes-barres et les codes QR à partir des principaux formats d'images et de PDF en utilisant le dernier moteur Tesseract 5. Cette bibliothèque permet d'ajouter des fonctionnalités d'OCR aux applications de bureau, aux consoles et aux applications Web en quelques minutes. Il prend en charge plus de 127 langues internationales. Licences commencent à partir de $749.

Étape 1 : Installer la dernière version d'IronOCR

Installer la DLL

Téléchargez directement le DLL IronOcr sur votre machine.

Installer NuGet

Vous pouvez également l'installer via NuGet.

Install-Package IronOcr

Étape 2 : Appliquer votre clé de licence

Définissez votre clé de licence IronOCR à l'aide du code

Ajoutez ce code au démarrage de votre application avant que IronOCR ne soit utilisé.

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";

IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"

$vbLabelText $csharpLabel

Étape 3 : Testez votre clé

Vérifiez que votre clé a été installée correctement.

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");

BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")

$vbLabelText $csharpLabel

Démarrer le projet

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}

' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using

$vbLabelText $csharpLabel

Comment utiliser l'OCR de Tesseract dans C# ; for .NET ?

Installer Google Tesseract et IronOCR for .NET dans Visual Studio
Vérifier les dernières versions en C#
Vérifier la précision et la compatibilité des images
Tester les performances et le fonctionnement de l'API
Envisager une prise en charge multilingue

Exemple de code pour l'utilisation de l'OCR en .NET - Extraction de texte à partir d'images en C# ;

Utilisez NuGet Package Manager pour installer le NuGet Package IronOCR dans votre solution Visual Studio.

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}

// PM > Install-Package IronOcr
// using IronOcr;

var Ocr = new IronTesseract();

// Hundreds of languages available
Ocr.Language = OcrLanguage.English;

using (var Input = new OcrInput())
{
   OcrInput.Add(@"img\example.tiff")
   // Input.DeNoise();  optional 
   // Input.Deskew();   optional 

   IronOcr.OcrResult Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

   // Explore the OcrResult using IntelliSense
}

' PM > Install-Package IronOcr
' using IronOcr;

Dim Ocr = New IronTesseract()

' Hundreds of languages available
Ocr.Language = OcrLanguage.English

Using Input = New OcrInput()
   OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

' ' Explore the OcrResult using IntelliSense
End Using

$vbLabelText $csharpLabel

IronOCR Tesseract pour C&num ;

Avec IronOCR, l'installation de Tesseract se fait entièrement à l'aide du gestionnaire de paquets NuGet.

Install-Package IronOcr

Tesseract 5 API dans IronOCR Tesseract

À ce jour, IronTesseract est la seule mise en œuvre connue de Tesseract 5 pour .NET Framework ou Core.

// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}

// using IronOcr;

var Ocr = new IronTesseract(); // nothing to configure

using (var Input = new OcrInput(@"images\image.png"))
{
   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}

' using IronOcr;

Dim Ocr = New IronTesseract() ' nothing to configure

Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using

$vbLabelText $csharpLabel

Tesseract 4 API dans IronOCR Tesseract

// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}

// using IronOcr;

var Ocr = new IronTesseract();

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;

using (var Input = new OcrInput(@"images\image.png"))

{

   var Result = Ocr.Read(Input);

   Console.WriteLine(Result.Text);

}

' using IronOcr;

Dim Ocr = New IronTesseract()

Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4

Using Input = New OcrInput("images\image.png")


Dim Result = Ocr.Read(Input)

   Console.WriteLine(Result.Text)

End Using

$vbLabelText $csharpLabel

Pourquoi IronOCR est meilleur que Tesseract :

ACCURACY

TESSERACT :

Si Tesseract rencontre une image qui est tournée, de travers, avec un faible DPI, scannée ou avec un bruit de fond, il devient presque impossible pour Tesseract d'obtenir des données à partir de cette image. En outre, Tesseract prendra également beaucoup de temps pour traiter ce document avant de vous fournir des informations absurdes.

IRONOCR :

IronOCR vous débarrasse de ce casse-tête. Les utilisateurs atteignent souvent une précision de 99,8 à 100 % avec une configuration minimale.

COMPATIBILITÉ DES IMAGES

TESSERACT :

N'accepte que le format d'image Leptonica PIX qui est un objet IntPtr C++ en C#. Les objets PIX ne sont pas des mémoires gérées - et le fait de ne pas les manipuler avec soin en C# entraîne des fuites de mémoire.

IRONOCR :

Les images sont gérées en mémoire. PDF et Tiff pris en charge. Le système. Le dessin, le flux et le tableau d'octets sont inclus pour chaque format de fichier.

Support étendu des images :

Documents PDF
Pages PDF
Fichiers TIFF multi-trames
JPEG & JPEG2000
GIF
PNG
System.Drawing.Image
Données d'image binaire (octet [])
Et bien d'autres encore...

PERFORMANCE

TESSERACT :

Google Tesseract peut produire des résultats rapides et précis s'il est correctement réglé et si les images d'entrée ont été prétraitées à l'aide de Photoshop ou d'ImageMagick.

IRONOCR :

L'DLL Tesseract d'IronOCR .NET fonctionne de manière précise et rapide pour la plupart des images dès l'installation. Nous avons mis en œuvre le multithreading afin d'utiliser les processeurs multicœurs que la plupart des machines utilisent aujourd'hui. Même les images à faible résolution fonctionnent généralement avec un degré élevé de précision dans votre programme. Aucun PhotoShop n'est nécessaire.

API

TESSERACT :

Deux choix s'offrent à nous :

Travailler avec les couches Interop - beaucoup de couches trouvées sur GitHub sont obsolètes, ont des tickets non résolus, des fuites de mémoire, et des avertissements Console. Peut ne pas prendre en charge .NET Core ou Standard.
Travailler avec la ligne de commande EXE - difficile à déployer et constamment interrompu par les scanners de virus et les politiques de sécurité.

IRONOCR :

Une bibliothèque .NET gérée et testée pour Tesseract appelée IronTesseract.

Entièrement documenté avec support IntelliSense.

LANGUE

TESSERACT :

Ne prend en charge que 100 langues.

IRONOCR :

Prise en charge de plus de 127 langues.

Conclusion

Tesseract est une excellente ressource pour les développeurs C#, mais ce n'est pas une bibliothèque OCR complète pour .NET. Les images scannées ou photographiées doivent être traitées de manière à être orthogonales, normalisées, à haute résolution et exemptes de bruit numérique avant que Tesseract ne puisse les utiliser avec précision.

En revanche, IronOCR peut faire tout cela et bien plus encore, avec une seule ligne de code. Il est vrai qu'IronOCR utilise Tesseract pour son moteur OCR interne, un Tesseract très finement réglé, conçu pour C#, avec de nombreuses améliorations de performance et des fonctionnalités ajoutées en standard.

Kannapat Udonpant

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.

< PRÉCÉDENT
Convertisseur OCR en ligne - Outils en ligne gratuits

SUIVANT >
OCR dans Windows 11 (Outils gratuits en ligne)