Configuration Détaillée de Tesseract

En matière de reconnaissance optique de caractères (OCR), il est essentiel de disposer d'options et de flexibilité quant à la manière d'aborder et d'extraire le texte des documents. L'OCR étant coûteuse, il est nécessaire de pouvoir contrôler ses performances et les méthodes à utiliser sur des documents spécifiques afin de garantir l'évolutivité et l'efficacité de l'application utilisant l'OCR.

IronTesseract offre aux développeurs différentes propriétés et options avec lesquelles ils peuvent expérimenter. Par exemple, si vous souhaitez mettre sur liste noire certains caractères, lire également les codes-barres contenus dans les documents ou même dicter comment le moteur OCR lit la page pour rechercher d'éventuels blocs de texte, tout cela et bien plus encore avec la classe IronTesseract .

Après avoir initialisé la classe IronTesseract , quelques options importantes sont immédiatement disponibles et nous souhaiterions les modifier. La première propriété à configurer est la Language . Par défaut, la langue est l'anglais ; Cependant, IronTesseract prend en charge jusqu'à 125 langues et permet même l'utilisation de plusieurs langues grâce à la méthode UseMultipleLanguages . Pour plus de détails, consultez cette page .

La deuxième propriété que nous souhaitons configurer est la classe TesseractConfiguration . Grâce à cette classe, nous pouvons modifier la façon dont le moteur Tesseract analyse le document à la recherche de blocs de texte potentiels.

  • Tout d'abord, nous modifions la langue du moteur Tesseract en l'attribuant à OcrLanguage.EnglishBest . Cette variante combine un LSTM et un OEM, qui sont des stratégies de reconnaissance de formes utilisant l'OCR ; La combinaison de ces deux stratégies permet à l'OCR de produire des résultats plus précis.
  • Ensuite, nous avons désactivé la lecture ReadBarCodes afin d'éviter la lecture des codes-barres pendant le processus OCR.

Nous personnalisons et spécifions également les caractères que nous souhaitons extraire en mettant sur liste noire certains caractères du document ; Dans cet exemple, nous mettons sur liste noire des caractères afin d'éviter d'extraire du texte contenant des accents graves, des accents ou des chevrons. Enfin, nous avons défini TesseractVariables["tessedit_parallelize"] sur false pour désactiver temporairement le traitement parallèle. Cette dernière fonctionnalité est particulièrement puissante car elle interagit directement avec le moteur Tesseract. Voici la liste complète des TesseractVariables qui permettent aux développeurs de personnaliser davantage le comportement du moteur Tesseract lors de la reconnaissance optique de caractères (OCR).

Explorez davantage d'options de configuration d'IronTesseract

Prêt à commencer?
Nuget Téléchargements 5,246,844 | Version : 2025.12 vient de sortir