Configuration Détaillée de Tesseract Lorsqu'il s'agit de reconnaissance optique de caractères (OCR), il est essentiel d'avoir des options et de la flexibilité sur la façon d'aborder et d'extraire du texte des documents. Comme la réalisation d'une OCR est coûteuse, il est nécessaire de pouvoir contrôler les performances et les méthodes à utiliser sur des documents spécifiques pour garantir que l'application utilisant l'OCR soit évolutive et efficace. IronTesseract offre aux développeurs différentes propriétés et options avec lesquelles expérimenter. Par exemple, si vous souhaitez mettre certains caractères sur liste noire ou que vous souhaitez également lire les codes-barres dans les documents ou même dicter comment le moteur OCR lit la page pour chercher des blocs de texte potentiels, tout cela et plus encore avec la classe IronTesseract. Guide en 5 étapes pour utiliser IronOCR avec Tesseract 5 var ocrTesseract = new IronTesseract(); ocrTesseract.Language = OcrLanguage.EnglishBest; ocrTesseract.Configuration.ReadBarCodes = false; ocrTesseract.Configuration.BlackListCharacters = "`ë|^"; ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false; Après avoir initié la classe IronTesseract, il y a quelques options importantes immédiatement disponibles que nous voudrions modifier. La première propriété à configurer est la Language. Par défaut, la langue est l'anglais ; cependant, IronTesseract prend en charge jusqu'à 125 langues et permet même plusieurs langues avec la méthode UseMultipleLanguages. Pour plus de détails, consultez ici. La deuxième propriété que nous voulons configurer est la classe TesseractConfiguration. Avec cette classe, nous pouvons modifier la façon dont le moteur Tesseract analyse le document pour des blocs de texte potentiels. Premièrement, nous modifions la langue du moteur Tesseract en assignant la langue à OcrLanguage.EnglishBest. Cette variation combine un LSTM et un OEM, qui sont des stratégies de reconnaissance de forme utilisant l'OCR ; la combinaison de ces deux stratégies permet à l'OCR de produire des résultats plus précis. Ensuite, nous réglons le ReadBarCodes sur false pour éviter de lire les codes-barres pendant le processus OCR. Nous personnalisons également et spécifions plus en détail les caractères que nous voulons extraire en mettant certains caractères du document sur liste noire ; dans cet exemple, nous mettons les caractères sur liste noire pour éviter d'extraire du texte avec des backticks, des accents ou des carets. Enfin, nous réglons le TesseractVariables["tessedit_parallelize"] sur false pour désactiver le traitement parallèle pour le moment. Ce dernier est une fonctionnalité vraiment puissante car il s'adresse directement au moteur Tesseract. Voici une liste complète de TesseractVariables qui permet aux développeurs de personnaliser encore plus le comportement du moteur Tesseract lors de la réalisation d'une OCR. Explorez plus d'options de configuration d'IronTesseract Liens de documentation associés Voir sur Github Tutoriel connexe Guide pratique connexe Documentation de classe Packs de langues pour OCR Télécharger IronOCR DLL Signaler un problème sur cette page Prêt à commencer? Nuget Téléchargements 5,167,857 | Version: 2025.11 vient de sortir Téléchargement gratuit NuGet Total des téléchargements :5,167,857 Voir Licences
Testez dans un environnement en direct Testez en production sans filigranes.Fonctionne où que vous en ayez besoin.
Produit entièrement fonctionnel Profitez de 30 jours de produit entièrement fonctionnel.Configurez-le et faites-le fonctionner en quelques minutes.
Nous répondons à toutes vos questions afin de nous assurer que vous disposez de toutes les informations dont vous avez besoin. (Sans aucun engagement)