Configuration Détaillée de Tesseract

En matière de reconnaissance optique de caractères (OCR), il est essentiel de disposer d'options et de flexibilité quant à la manière d'aborder et d'extraire le texte des documents. L'OCR étant coûteuse, il est nécessaire de pouvoir contrôler ses performances et les méthodes à utiliser sur des documents spécifiques afin de garantir l'évolutivité et l'efficacité de l'application utilisant l'OCR.

IronTesseract offre aux développeurs différentes propriétés et options à explorer. Par exemple, si vous souhaitez mettre certains caractères sur liste noire, lire les BarCodes contenus dans les documents ou même dicter la manière dont l'OCR lit la page pour rechercher des blocs de texte potentiels, tout cela et bien plus encore est possible avec la classe IronTesseract.

Après avoir instancié la classe IronTesseract, plusieurs options importantes sont immédiatement disponibles et que nous souhaitons modifier. La première propriété à configurer est Language. Par défaut, la langue est l'anglais ; Cependant, IronTesseract prend en charge jusqu'à 125 langues et permet même d'utiliser plusieurs langues grâce à la méthode UseMultipleLanguages. Pour plus de détails, consultez cette page .

La deuxième propriété que nous souhaitons configurer est la classe TesseractConfiguration. Grâce à cette classe, nous pouvons modifier la façon dont le moteur Tesseract analyse le document à la recherche de blocs de texte potentiels.

  • Tout d'abord, nous modifions la langue du moteur Tesseract en attribuant la langue à OcrLanguage.EnglishBest. Cette variante combine un LSTM et un OEM, qui sont des stratégies de reconnaissance de formes utilisant l'OCR ; La combinaison de ces deux stratégies permet à l'OCR de produire des résultats plus précis.
  • Ensuite, nous avons défini ReadBarCodes sur false pour éviter la lecture des BARCODES pendant le processus d'OCR.

Nous personnalisons et spécifions également les caractères que nous souhaitons extraire en mettant sur liste noire certains caractères du document ; Dans cet exemple, nous mettons sur liste noire des caractères afin d'éviter d'extraire du texte contenant des accents graves, des accents ou des chevrons. Enfin, nous avons défini TesseractVariables["tessedit_parallelize"] sur false pour désactiver le traitement parallèle pour le moment. Cette dernière fonctionnalité est particulièrement puissante, car elle s'adresse directement au moteur Tesseract. Voici une liste complète de TesseractVariables qui permet aux développeurs de personnaliser davantage le comportement du moteur Tesseract lors de l'exécution de l'OCR.

Explorez davantage d'options de configuration d'IronTesseract

Prêt à commencer?
Nuget Téléchargements 5,896,332 | Version : 2026.5 just released
Still Scrolling Icon

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.