Configuration détaillée de Tesseract

En matière de OCR, avoir des options et de la flexibilité pour aborder et extraire du texte des documents est essentiel. Comme la reconnaissance optique de caractères (OCR) est coûteuse, il est nécessaire de pouvoir contrôler la performance et les méthodes à utiliser sur des documents spécifiques pour s'assurer que l'application utilisant l'OCR soit évolutive et efficace.

IronTesseract offre aux développeurs différentes propriétés et options avec lesquelles expérimenter. Par exemple, si vous souhaitiez mettre en liste noire certains caractères ou également lire les codes-barres dans les documents, ou même dicter comment le moteur OCR lit la page pour détecter d'éventuels blocs de texte, tout cela et plus encore avec la classe IronTesseract.

Après avoir initialisé la classe IronTesseract, il existe quelques options importantes immédiatement disponibles que nous voudrions modifier. La première propriété à configurer est le Language. Par défaut, la langue est l'anglais ; cependant, IronTesseract prend en charge jusqu'à 125 langues et permet même plusieurs langues avec la méthode UseMultipleLanguages. Pour plus de détails, reportez-vous ici.

La deuxième propriété que nous voulons configurer est la classe TesseractConfiguration. Avec cette classe, nous pouvons modifier la manière dont le moteur Tesseract examine le document pour y repérer des blocs de texte potentiels. Tout d'abord, nous modifions la langue du moteur Tesseract en assignant la langue à OcrLanguage.EnglishBest. Cette variation combine un LTSM et un OEM, qui sont des stratégies de reconnaissance de formes utilisant l'OCR. combiner ces deux stratégies permet à l'OCR de produire des résultats plus précis. Ensuite, nous réglons le ReadBarCodes sur false pour éviter la lecture des codes-barres pendant le processus OCR.

Nous personnalisons et spécifions également les caractères que nous souhaitons extraire en mettant certains caractères du document sur liste noire. dans cet exemple, nous mettons sur liste noire les caractères pour éviter d'extraire du texte contenant des accents graves, des accents aigus ou le symbole de l'accent circonflexe. Enfin, nous définissons le TessreactVariables["tessedit_parallelize"] sur false pour désactiver le traitement parallèle pour le moment. Ceci est une fonctionnalité très puissante car elle s'adresse directement au moteur Tesseract. Voici une liste complète de TesseractVariables qui permet aux développeurs de personnaliser davantage le comportement du moteur Tesseract lors de l'exécution de la reconnaissance optique de caractères (OCR). Cliquez ici pour voir le guide pratique, y compris des exemples, du code d'échantillon et des fichiers.