Configuration détaillée de Tesseract
En matière de OCR, avoir des options et de la flexibilité pour aborder et extraire du texte des documents est essentiel. Comme la reconnaissance optique de caractères (OCR) est coûteuse, il est nécessaire de pouvoir contrôler la performance et les méthodes à utiliser sur des documents spécifiques pour s'assurer que l'application utilisant l'OCR soit évolutive et efficace.
IronTesseract offre aux développeurs différentes propriétés et options avec lesquelles expérimenter. Par exemple, si vous souhaitiez mettre sur liste noire certains caractères ou aussi lire les codes-barres dans les documents, ou même dicter comment le moteur OCR lit la page pour rechercher des blocs de texte potentiels, tout cela et plus encore avec la classe IronTesseract
.
Guide en 5 étapes pour utiliser IronOCR avec Tesseract 5
var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë ^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;
Après avoir initié la classe IronTesseract
, il y a quelques options importantes immédiatement disponibles que nous voudrions modifier. La première propriété à configurer est la Language
. Par défaut, la langue est l'anglais ; Cependant, IronTesseract
prend en charge jusqu'à 125 langues et permet même l'utilisation de plusieurs langues avec la méthode UseMultipleLanguages
. Pour plus de détails, consultezici.
La deuxième propriété que nous souhaitons configurer est la classe TesseractConfiguration
. Avec cette classe, nous pouvons modifier la manière dont le moteur Tesseract examine le document pour y repérer des blocs de texte potentiels. Tout d'abord, nous modifions la langue du moteur Tesseract en attribuant la langue à OcrLanguage.EnglishBest
. Cette variation combine un LTSM et un OEM, qui sont des stratégies de reconnaissance de formes utilisant l'OCR. combiner ces deux stratégies permet à l'OCR de produire des résultats plus précis. Ensuite, nous définissons ReadBarCodes
sur false pour éviter de lire les codes-barres pendant le processus OCR.
Nous personnalisons et spécifions également les caractères que nous souhaitons extraire en mettant certains caractères du document sur liste noire. dans cet exemple, nous mettons sur liste noire les caractères pour éviter d'extraire du texte contenant des accents graves, des accents aigus ou le symbole de l'accent circonflexe. Enfin, nous définissons les TessreactVariables["tessedit_parallelize"]
sur false pour désactiver le traitement parallèle pour le moment. Cette dernière fonctionnalité est vraiment puissante car elle communique directement avec le moteur Tesseract.Iciest une liste complète de TesseractVariables
qui permet aux développeurs de personnaliser davantage le comportement du moteur Tesseract lors de l'exécution de l'OCR. Cliquez ici pour voir le guide pratique, y compris des exemples, du code d'échantillon et des fichiers.