VIDéOS

Comment utiliser plusieurs langues avec Tesseract ?

Kannaopat Udonpant
Kannapat Udonpant
mars 17, 2025
Partager:


Ce tutoriel fournit un guide complet sur l'utilisation de Tesseract en conjonction avec IronOCR pour reconnaître du texte dans plusieurs langues à partir de fichiers PDF et d'images. Tout d'abord, assurez-vous que IronOCR et les packs de langue nécessaires sont installés dans votre projet en utilisant le gestionnaire de packages NuGet. Commencez par importer les espaces de noms requis et configurer IronOCR avec une clé de licence valide pour débloquer toutes ses capacités. Instancier l'objet Tesseract de IronOCR pour effectuer la reconnaissance optique de caractères, en utilisant initialement l'anglais comme langue par défaut. Pour ajouter la prise en charge de langues supplémentaires, telles que le russe, utilisez la méthode 'add secondary language'.

Charger un fichier PDF nommé 'example.PDF' contenant du texte en plusieurs langues en utilisant la classe d'entrée OCR PDF. Effectuer une OCR pour extraire le contenu textuel, en stockant les résultats dans un objet désigné. Pour garantir l'affichage précis des caractères multilingues, définissez le codage de sortie de la console sur Unicode avant d'imprimer le texte extrait sur la console.

De plus, ajustez la langue principale au russe et ajoutez le japonais comme langue secondaire. Cette modification facilite la reconnaissance à la fois du texte russe et japonais. Chargez un fichier image, 'example.png', contenant du texte multilingue en utilisant la classe d'entrée d'image OCR, et exécutez l'OCR avec les paramètres de langue configurés. Stockez le résultat et affichez le texte extrait de l'image dans la console.

En suivant ces étapes, vous pouvez extraire et reconnaître facilement du texte en anglais, russe et japonais à partir de divers types de fichiers. Ce tutoriel met en avant l'efficacité de l'utilisation de plusieurs langues avec Tesseract et IronOCR, rendant le traitement de texte multilingue dans les PDF et les images simple. Pour plus de tutoriels et pour commencer à utiliser IronOCR, abonnez-vous à Iron Software et envisagez de vous inscrire pour un essai.

Pour en savoir plus : Comment utiliser plusieurs langues avec Tesseract

BIBLIOTHÈQUE_COMMENCER_AVEC_UNE_EXTENSION_D'ESSAI_DU_PRODUIT_BLOC

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT
Comment utiliser les Language Packs de l'OCR dans IronOCR
SUIVANT >
Comment extraire du texte à partir d'un fichier image