Configuration Détaillée de Tesseract En matière d'OCR, il est essentiel de disposer d'options et de flexibilité dans la manière d'aborder et d'extraire le texte des documents. L'OCR étant coûteuse, il est nécessaire de pouvoir contrôler les performances et les méthodes à utiliser sur des documents spécifiques afin de garantir l'évolutivité et l'efficacité de l'application utilisant l'OCR. IronTesseract offre aux développeurs différentes propriétés et options avec lesquelles ils peuvent bricoler. Par exemple, si vous vouliez mettre certains caractères sur liste noire ou si vous vouliez également lire les codes-barres dans les documents ou même dicter la façon dont le moteur OCR lit la page pour analyser les blocs de texte potentiels, tout cela et plus encore avec la classe IronTesseract. 5-Step Guide to Using IronOCR with Tesseract 5 var ocrTesseract = new IronTesseract(); ocrTesseract.Language = OcrLanguage.EnglishBest; ocrTesseract.Configuration.ReadBarCodes = false; ocrTesseract.Configuration.BlackListCharacters = "`ë|^"; ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false; Après avoir lancé la classe IronTesseract, quelques options importantes sont immédiatement disponibles et nous souhaitons les modifier. La première propriété à configurer est la Langue. La langue par défaut est l'anglais ; cependant, IronTesseract prend en charge jusqu'à 125 langues et permet même l'utilisation de plusieurs langues grâce à la méthode UseMultipleLanguages. Pour plus de détails, consultez le site ici. La deuxième propriété que nous souhaitons configurer est la classe TesseractConfiguration. Avec cette classe, nous pouvons modifier la façon dont le moteur Tesseract analyse le document pour trouver des blocs de texte potentiels. Tout d'abord, nous modifions la langue du moteur Tesseract en attribuant la langue à OcrLanguage.EnglishBest. Cette variante combine une LSTM et une OEM, qui sont des stratégies de reconnaissance de formes utilisant l'OCR ; la combinaison de ces deux stratégies permet à l'OCR de produire des résultats plus précis. Ensuite, nous définissons le ReadBarCodes sur false pour éviter de lire les codes-barres pendant le processus d'OCR. Nous personnalisons et spécifions également les caractères que nous voulons extraire en établissant une liste noire de certains caractères sur le document ; dans cet exemple, nous établissons une liste noire de caractères afin d'éviter d'extraire du texte contenant des barres obliques, des accents ou des carets. Enfin, nous définissons le TesseractVariables["tessedit_parallelize"] sur false pour désactiver le traitement parallèle pour le moment. Ce dernier point est une fonctionnalité très puissante puisqu'il s'adresse directement au moteur Tesseract. Voici une liste complète de TesseractVariables qui permet aux développeurs de personnaliser davantage le comportement du moteur Tesseract lors de l'exécution de l'OCR. Explorez d'autres options de configuration d'IronTesseract Liens de documentation associés Voir sur Github Tutoriel connexe Guide pratique connexe Documentation de classe Packs de langues pour OCR Télécharger IronOCR DLL Signaler un problème sur cette page Prêt à commencer? Nuget Téléchargements 5,044,537 | Version : 2025.11 vient de sortir Téléchargement gratuit NuGet Total des téléchargements :5,044,537 Voir Licences
Testez dans un environnement en direct Testez en production sans filigranes.Fonctionne où que vous en ayez besoin.
Produit entièrement fonctionnel Profitez de 30 jours de produit entièrement fonctionnel.Configurez-le et faites-le fonctionner en quelques minutes.
Testez dans un environnement en direct Testez en production sans filigranes.Fonctionne où que vous en ayez besoin.
Produit entièrement fonctionnel Profitez de 30 jours de produit entièrement fonctionnel.Configurez-le et faites-le fonctionner en quelques minutes.