Comment utiliser plusieurs langues avec Tesseract ?
VIDéOS
Comment utiliser plusieurs langues avec Tesseract ?
Kannapat Udonpant
mars 17, 2025
Partager:
Ce tutoriel fournit un guide complet sur l'utilisation de Tesseract en conjonction avec IronOCR pour reconnaître du texte dans plusieurs langues à partir de fichiers PDF et d'images. Tout d'abord, assurez-vous que IronOCR et les packs de langue nécessaires sont installés dans votre projet en utilisant le gestionnaire de packages NuGet. Commencez par importer les espaces de noms requis et configurer IronOCR avec une clé de licence valide pour débloquer toutes ses capacités. Instancier l'objet Tesseract de IronOCR pour effectuer la reconnaissance optique de caractères, en utilisant initialement l'anglais comme langue par défaut. Pour ajouter la prise en charge de langues supplémentaires, telles que le russe, utilisez la méthode 'add secondary language'.
Charger un fichier PDF nommé 'example.PDF' contenant du texte en plusieurs langues en utilisant la classe d'entrée OCR PDF. Effectuer une OCR pour extraire le contenu textuel, en stockant les résultats dans un objet désigné. Pour garantir l'affichage précis des caractères multilingues, définissez le codage de sortie de la console sur Unicode avant d'imprimer le texte extrait sur la console.
De plus, ajustez la langue principale au russe et ajoutez le japonais comme langue secondaire. Cette modification facilite la reconnaissance à la fois du texte russe et japonais. Chargez un fichier image, 'example.png', contenant du texte multilingue en utilisant la classe d'entrée d'image OCR, et exécutez l'OCR avec les paramètres de langue configurés. Stockez le résultat et affichez le texte extrait de l'image dans la console.
En suivant ces étapes, vous pouvez extraire et reconnaître facilement du texte en anglais, russe et japonais à partir de divers types de fichiers. Ce tutoriel met en avant l'efficacité de l'utilisation de plusieurs langues avec Tesseract et IronOCR, rendant le traitement de texte multilingue dans les PDF et les images simple. Pour plus de tutoriels et pour commencer à utiliser IronOCR, abonnez-vous à Iron Software et envisagez de vous inscrire pour un essai.
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT Comment utiliser les Language Packs de l'OCR dans IronOCR
SUIVANT > Comment extraire du texte à partir d'un fichier image
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier