Ce tutoriel fournit un guide complet sur l'utilisation de Tesseract en conjonction avec IronOCR pour reconnaître du texte dans plusieurs langues à partir de fichiers PDF et d'images. Tout d'abord, assurez-vous que IronOCR et les packs de langue nécessaires sont installés dans votre projet en utilisant le gestionnaire de packages NuGet. Commencez par importer les espaces de noms requis et configurer IronOCR avec une clé de licence valide pour débloquer toutes ses capacités. Instancier l'objet Tesseract de IronOCR pour effectuer la reconnaissance optique de caractères, en utilisant initialement l'anglais comme langue par défaut. Pour ajouter la prise en charge de langues supplémentaires, telles que le russe, utilisez la méthode 'add secondary language'.
Charger un fichier PDF nommé 'example.PDF' contenant du texte en plusieurs langues en utilisant la classe d'entrée OCR PDF. Effectuer une OCR pour extraire le contenu textuel, en stockant les résultats dans un objet désigné. Pour garantir l'affichage précis des caractères multilingues, définissez le codage de sortie de la console sur Unicode avant d'imprimer le texte extrait sur la console.
De plus, ajustez la langue principale au russe et ajoutez le japonais comme langue secondaire. Cette modification facilite la reconnaissance à la fois du texte russe et japonais. Chargez un fichier image, 'example.png', contenant du texte multilingue en utilisant la classe d'entrée d'image OCR, et exécutez l'OCR avec les paramètres de langue configurés. Stockez le résultat et affichez le texte extrait de l'image dans la console.
En suivant ces étapes, vous pouvez extraire et reconnaître facilement du texte en anglais, russe et japonais à partir de divers types de fichiers. Ce tutoriel met en avant l'efficacité de l'utilisation de plusieurs langues avec Tesseract et IronOCR, rendant le traitement de texte multilingue dans les PDF et les images simple. Pour plus de tutoriels et pour commencer à utiliser IronOCR, abonnez-vous à Iron Software et envisagez de vous inscrire pour un essai.
Pour en savoir plus : Comment utiliser plusieurs langues avec Tesseract