Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Tesseract est un moteur de reconnaissance optique de caractères qui peut être utilisé sur différents systèmes d'exploitation. Il s'agit d'un logiciel libre, publié sous la licence Apache. Dans ce guide, je vais vous présenter les étapes que j'ai suivies pour installer Tesseract sur ma machine Windows 10. La version majeure 5 est la version stable actuelle et a commencé avec la version 5.0. 0 le 30 novembre 2021.
Pour installer les données linguistiques : sudo port install tesseract -<langcode> ;
Une liste de langcodes est disponible sur la page Homebrew de MacPorts Tesseract. La première étape de l'installation de Tesseract OCR pour Windows consiste à télécharger le programme d'installation .exe correspondant au système d'exploitation de votre machine
Ensuite, nous devons configurer l'installation de Tesseract. Si vous êtes confiant et que vous ne souhaitez exécuter Tesseract OCR pour Windows qu'avec la langue par défaut, l'anglais, vous pouvez exécuter les écrans d'installation en sélectionnant toutes les options par défaut.
Il s'agit simplement de la langue des boîtes de dialogue et des informations d'aide. Si nous le souhaitons, nous pouvons exécuter Tesseract OCR pour Windows dans plusieurs langues :
Langue d'installation pour Tesseract OCR pour Windows
L'écran d'installation recommande de fermer toutes les autres applications avant de poursuivre l'installation.
L'écran d'installation de Tesseract OCR pour Windows.
Ensuite, nous allons choisir l'emplacement de l'installation. Avant de passer à l'étape suivante, veillez à copier l'emplacement de l'installation dans un fichier .txt. Nous devrons ajouter l'emplacement d'installation aux variables d'environnement de notre machine une fois l'installation terminée.
Choisissez l'emplacement de l'installation.
Par défaut, les données ScrollView, Training Tools, Shortcuts creation et Language sont toutes sélectionnées. À moins que vous n'ayez une raison particulière de ne pas les installer, nous souhaitons que tous ces éléments soient sélectionnés.
Composants d'installation par défaut de Tesseract OCR pour Windows.
Si nous faisons défiler la page vers le bas et développons la rubrique "Données de script supplémentaires", nous verrons que nous avons la possibilité de télécharger et d'installer des données de script supplémentaires. Cela peut être utile pour améliorer la précision de l'extraction de texte à partir de certaines langues écrites. C'est à vous de décider si vous voulez les installer.
Composants d'installation de scripts optionnels.
Dans la dernière étape de l'installation, on nous demandera de choisir le dossier du menu de démarrage pour les raccourcis de Tesseract OCR pour Windows. J'ai laissé le mien avec le nom par défaut : "Tesseract-OCR".
Choisissez le dossier du menu Démarrer pour les raccourcis de Tesseract OCR pour Windows.
Après avoir cliqué sur installer, Tesseract OCR pour Windows commencera à s'installer. L'étape suivante consiste à ajouter le chemin d'installation aux variables d'environnement de notre machine.
Pour ajouter l'emplacement d'installation à nos variables d'environnement, allez dans le menu Démarrer et cherchez "variables d'environnement". Vous devriez voir un résultat vous permettant d'éditer les variables d'environnement du système. Si ce n'est pas le cas, vous pouvez toujours suivre les étapes suivantes : Menu Démarrer > Panneau de configuration > Modifier les variables d'environnement du système.
Recherche de "variables d'environnement
Lorsque la boîte de dialogue "Propriétés du système" s'affiche, assurez-vous que l'onglet "Avancé" est cliqué, puis cliquez sur le bouton "Variables d'environnement" en bas à droite de l'écran.
Sous les variables du système, nous cliquerons sur le bouton Editer.
Lorsque l'écran "Editer la variable d'environnement" s'affiche, cliquez sur le bouton Nouveau et collez le chemin d'installation de Tesseract OCR que nous avons copié plus tôt à l'étape 2. Une fois que vous avez fait cela, cliquez sur le bouton 'OK'.
C'est tout! Maintenant que nous avons exécuté le programme d'installation .exe et ajouté l'emplacement d'installation de Tesseract OCR pour Windows à nos variables d'environnement, nous pouvons tester que notre installation fonctionne en exécutant Tesseract sur une image de test.
Pour vérifier que Tesseract OCR pour Windows a été installé avec succès, ouvrez l'invite de commande sur votre machine, puis exécutez la commande Tesseract. Vous devriez voir une sortie avec une explication rapide des options d'utilisation de Tesseract.
Vérification de la réussite de l'installation de Tesseract OCR pour Windows
Félicitations! Vous avez installé avec succès Tesseract OCR pour Windows sur votre machine.
IronOCR fournit Tesseract OCR sur Mac, Windows, Linux, Azure et Docker pour :
Xamarin pour macOS
IronOCR lit le texte, les codes-barres et les codes QR à partir des principaux formats d'images et de PDF en utilisant le dernier moteur Tesseract 5. Cette bibliothèque permet d'ajouter des fonctionnalités d'OCR aux applications de bureau, aux consoles et aux applications Web en quelques minutes. Il prend en charge plus de 127 langues internationales. Licences démarrer à partir de $749.
Télécharger le DLL IronOCR directement sur votre machine.
Vous pouvez également l'installer via NuGet.
Install-Package IronOcr
Ajoutez ce code au démarrage de votre application avant que IronOCR ne soit utilisé.
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01";
IronOcr.Installation.LicenseKey = "IRONOCR-MYLICENSE-KEY-1EF01"
Vérifiez que votre clé a été installée correctement.
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0");
BoolresultIronOcr.License.IsValidLicense("IRONOCR-MYLICENSE-KEY-1EF0")
Démarrer le projet
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Hundreds of languages available
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
' ' Explore the OcrResult using IntelliSense
End Using
Utilisez NuGet Package Manager pour installer le NuGet Package IronOCR dans votre solution Visual Studio.
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
// PM > Install-Package IronOcr
// using IronOcr;
var Ocr = new IronTesseract();
// Hundreds of languages available
Ocr.Language = OcrLanguage.English;
using (var Input = new OcrInput())
{
OcrInput.Add(@"img\example.tiff")
// Input.DeNoise(); optional
// Input.Deskew(); optional
IronOcr.OcrResult Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
// Explore the OcrResult using IntelliSense
}
' PM > Install-Package IronOcr
' using IronOcr;
Dim Ocr = New IronTesseract()
' Hundreds of languages available
Ocr.Language = OcrLanguage.English
Using Input = New OcrInput()
OcrInput.Add("img\example.tiff") IronOcr.OcrResult Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
' ' Explore the OcrResult using IntelliSense
End Using
Avec IronOCR, l'installation de Tesseract se fait entièrement à l'aide du gestionnaire de paquets NuGet.
Install-Package IronOcr
À ce jour, IronTesseract est la seule mise en œuvre connue de Tesseract 5 pour .NET Framework ou Core.
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract(); // nothing to configure
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract() ' nothing to configure
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.TesseractVersion = TesseractVersion.Tesseract4
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Si Tesseract rencontre une image qui est tournée, de travers, avec un faible DPI, scannée ou avec un bruit de fond, il devient presque impossible pour Tesseract d'obtenir des données à partir de cette image. En outre, Tesseract prendra également beaucoup de temps pour traiter ce document avant de vous fournir des informations absurdes.
IronOCR vous débarrasse de ce casse-tête. Les utilisateurs atteignent souvent une précision de 99,8 à 100 % avec une configuration minimale.
N'accepte que le format d'image Leptonica PIX qui est un objet IntPtr C++ en C#. Les objets PIX ne sont pas des mémoires gérées - et le fait de ne pas les manipuler avec soin en C# entraîne des fuites de mémoire.
Les images sont gérées en mémoire. PDF et Tiff pris en charge. Le système. Le dessin, le flux et le tableau d'octets sont inclus pour chaque format de fichier.
Broad image support:
Google Tesseract peut produire des résultats rapides et précis s'il est correctement réglé et si les images d'entrée ont été prétraitées à l'aide de Photoshop ou d'ImageMagick.
La DLL Tesseract IronOCR .NET fonctionne avec précision et rapidité pour la plupart des images dès sa sortie de l'emballage. Nous avons mis en œuvre le multithreading afin d'utiliser les processeurs multicœurs que la plupart des machines utilisent aujourd'hui. Même les images à faible résolution fonctionnent généralement avec un degré élevé de précision dans votre programme. Aucun PhotoShop n'est nécessaire.
Deux choix s'offrent à nous :
Une bibliothèque .NET gérée et testée pour Tesseract appelée IronTesseract.
Entièrement documenté avec support IntelliSense.
Ne prend en charge que 100 langues.
Prise en charge de plus de 127 langues.
Tesseract est une excellente ressource pour les développeurs C#, mais ce n'est pas une bibliothèque OCR complète pour .NET. Les images scannées ou photographiées doivent être traitées de manière à être orthogonales, normalisées, à haute résolution et exemptes de bruit numérique avant que Tesseract ne puisse les utiliser avec précision.
En revanche, IronOCR peut faire tout cela et bien plus encore, avec une seule ligne de code. Il est vrai qu'IronOCR utilise Tesseract pour son moteur OCR interne, un Tesseract très finement ajusté, construit pour C#, avec de nombreuses améliorations de performance et des fonctionnalités ajoutées en standard.
9 produits de l'API .NET pour vos documents de bureau