Comment utiliser plusieurs langues avec Tesseract

Comment utiliser plusieurs langues avec Tesseract en C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR permet d'extraire du texte à partir de documents en plusieurs langues à l'aide du moteur Tesseract en configurant les langues primaires et secondaires avec une seule ligne de code, en prenant en charge plus de 125 packs de langues pour un traitement OCR multilingue transparent.

Introduction

<TODO : Ajouter une image ici -->

IronOCR assure l'extraction de texte à partir de diverses langues et écritures grâce au moteur Tesseract , un outil OCR fiable.

Cet article explore la manière dont IronOCR traite les textes en plusieurs langues grâce à Tesseract. Vous apprendrez à mettre en œuvre des solutions d'OCR multilingues et à comprendre les capacités d'IronOcr et l'intégration de son moteur Tesseract.

Le traitement de documents dans plusieurs langues est essentiel pour les applications modernes. Les documents commerciaux internationaux, les sites web multilingues et les plateformes de communication mondiales nécessitent une extraction de texte précise au-delà des barrières linguistiques. IronOcr répond à ce besoin en s'intégrant à la prise en charge linguistique étendue de Tesseract, permettant l'extraction de texte à partir de documents contenant plusieurs scripts et jeux de caractères simultanément.

Démarrage rapide : Utilisation d'IronOCR pour la reconnaissance de texte en plusieurs langues

Configurez IronOCR avec une langue principale et ajoutez des langues secondaires en une seule ligne pour extraire du texte à partir de documents ou d'images multilingues.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer


Comment lire des PDF multilingues avec IronOcr?

IronOcr fournit environ 125 packs de langues ; seul l'anglais est installé par défaut. Téléchargez d'autres langues à partir de NuGet. Voir tous les packs linguistiques disponibles ici.

Les PDF contenant plusieurs langues nécessitent une configuration spécifique du moteur OCR. IronOcr vous permet de spécifier les langues principales et secondaires avant de traiter les documents, ce qui garantit une précision de reconnaissance optimale entre les différents scripts et jeux de caractères.

Quelles sont les langues disponibles pour l'extraction de PDF ?

L'exemple suivant montre comment utiliser plusieurs langues dans IronOcr pour extraire du texte d'un fichier PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

Pour les scénarios de traitement PDF complexes, consultez notre guide sur PDF OCR Text Extraction couvrant des techniques avancées pour divers formats et structures PDF.

Comment la priorité linguistique affecte-t-elle les résultats de l'OCR?

Ajoutez un nombre quelconque de langues secondaires à l'aide de la méthode AddSecondaryLanguage. Notez que l'ajout de langues supplémentaires peut avoir une incidence sur la vitesse et les performances. La priorité des langues dépend de l'ordre dans lequel elles ont été ajoutées, la première ayant la priorité la plus élevée.

Il est essentiel de comprendre les priorités linguistiques lors du traitement de documents multilingues. Lors de l'extraction du texte, la priorité est donnée à la langue principale : le moteur OCR tente d'abord de faire correspondre les caractères avec le jeu de caractères de la langue principale. Les langues secondaires sont consultées lorsque des caractères ne correspondent pas aux modèles de la langue principale.

Pour des performances optimales :

  • Définissez la langue la plus courante de votre document comme langue principale
  • Ajouter les langues secondaires par ordre de fréquence dans le document
  • Limitez les langues secondaires à celles qui sont nécessaires pour votre cas d'utilisation

Pour les applications performantes comportant plusieurs langues, consultez notre guide Configuration rapide de l'OCR afin d'optimiser la vitesse de traitement.

Comment traiter des images multilingues avec Tesseract?

<TODO : Ajouter une image ici -->

L'anglais est la langue principale par défaut. To change it, set the Language property to your desired language, then add secondary languages as needed.

Les images contenant du texte multilingue doivent être configurées avec soin. Contrairement aux PDF, les images peuvent contenir des orientations de texte variées, des polices différentes et des scripts mixtes. L'intégration de Tesseract d'IronOCR offre des options de configuration linguistique complètes pour ces scénarios.

Quand dois-je changer le paramètre de langue par défaut?

Modifier la langue par défaut lorsque :

  • Le document est majoritairement rédigé dans une langue autre que l'anglais
  • Traitement de documents provenant d'une région ou d'un pays spécifique
  • Votre application s'adresse à des utilisateurs travaillant avec du contenu non anglophone
  • Optimiser la précision de la reconnaissance pour des jeux de caractères spécifiques

Voici un exemple complet de traitement d'images multilingue :

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

Pour les langues personnalisées ou les polices spécialisées, consultez notre tutoriel sur Utilisation de fichiers de langues personnalisées.

Quels résultats puis-je attendre de l'OCR multilingue?

Une configuration adéquate permet d'obtenir des résultats comme ceux-ci :

Application de traitement de texte multilingue montrant le contenu russe et japonais avec une sortie console affichant le traitement des caractères

La qualité des résultats de l'OCR multilingue dépend de plusieurs facteurs :

  1. Qualité de l'image : Une résolution plus élevée (300+ DPI) donne de meilleurs résultats. Voir notre guide des paramètres DPI.
  2. Clarté du texte : Un texte clair et bien défini, sans artefacts, permet une reconnaissance plus précise
  3. Configuration linguistique : Une configuration correcte des langues primaire et secondaire garantit des modèles de reconnaissance de caractères corrects
  4. Prétraitement : Des filtres appropriés améliorent considérablement les résultats. Consultez notre guide Filtres de correction d'image pour les techniques d'amélioration.

Quels sont les principaux enseignements à tirer de l'OCR multilingue ?

IronOCR, qui utilise le moteur Tesseract, extrait efficacement du texte à partir de documents multilingues. La traduction doit rester professionnelle et préserver l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement. Qu'il s'agisse de traiter des PDF avec différentes langues ou de travailler avec des contenus d'images multilingues, IronOcr simplifie la reconnaissance et l'extraction de texte d'une langue à l'autre.

Principaux avantages d'IronOCR pour l'extraction de texte multilingue :

  • Support linguistique étendu : Plus de 125 langues internationales d'OCR via des packages NuGet
  • Configuration flexible : API simple pour les paramètres de la langue principale et de la langue secondaire
  • Haute précision : Utilise les algorithmes de reconnaissance avancés de Tesseract 5
  • Optimisation des performances : Prise en charge intégrée du multithreading
  • <Compatibilité multiplateforme : Fonctionne sous Windows, Linux et macOS

IronOCR fournit une solution complète combinant facilité d'utilisation et fonctionnalités puissantes pour la mise en œuvre de l'OCR en plusieurs langues. Créez des systèmes de gestion de documents, des outils de traduction ou toute autre application nécessitant une extraction de texte multilingue avec la flexibilité et la fiabilité nécessaires pour réussir.

Démarrez votre projet d'OCR multilingue en téléchargeant IronOCR depuis NuGet et en explorant notre documentation et nos exemples. Pour les cas d'utilisation spécifiques ou les scénarios avancés, nos guides de dépannage fournissent des indications pour des résultats optimaux.

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant plusieurs langues ?

IronOCR vous permet de configurer l'OCR multilingue avec une seule ligne de code. Définissez une langue principale à l'aide de la propriété Language et ajoutez des langues secondaires à l'aide de la méthode AddSecondaryLanguage. IronOCR peut ainsi extraire avec précision du texte de documents contenant simultanément plusieurs scripts et jeux de caractères.

Quelles sont les langues prises en charge pour l'extraction de texte ?

IronOCR prend en charge plus de 125 packs de langues grâce à l'intégration de son moteur Tesseract. Si l'anglais est installé par défaut, vous pouvez télécharger des packs linguistiques supplémentaires depuis NuGet pour activer les fonctionnalités d'OCR pour des langues allant de l'espagnol et du français à l'arabe, au chinois, au japonais et bien d'autres encore.

Comment ajouter des langues secondaires pour le traitement OCR ?

Utilisez la méthode AddSecondaryLanguage dans IronOCR pour activer des langues supplémentaires. Par exemple : new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Cette configuration permet à IronOCR de reconnaître du texte en espagnol et en français dans le même document.

Puis-je extraire du texte à partir de PDF multilingues ?

Oui, IronOCR peut traiter des PDF contenant plusieurs langues. Il suffit de configurer le moteur OCR avec votre langue principale et votre langue secondaire avant le traitement. IronOCR traitera automatiquement les différents scripts et jeux de caractères du PDF, garantissant ainsi une extraction de texte précise dans toutes les langues présentes dans le document.

Dois-je installer les packs linguistiques séparément ?

Oui. Bien qu'IronOCR comprenne l'anglais par défaut, des packs linguistiques supplémentaires doivent être installés via NuGet. Chaque pack de langue contient les données nécessaires pour que le moteur Tesseract d'IronOCR reconnaisse le texte dans cette langue spécifique. Vous pouvez voir et télécharger tous les packs de langues disponibles sur la page des langues d'IronOCR.

Quel est le flux de travail minimal pour l'OCR multilingue ?

Le flux de travail minimal comprend 5 étapes : 1) Télécharger la bibliothèque IronOCR, 2) Préparer votre document PDF ou image, 3) Installer les packs linguistiques requis via NuGet, 4) Utiliser la méthode AddSecondaryLanguage pour activer des langues supplémentaires, et 5) Définir la propriété Language pour votre langue principale. Cette configuration permet une extraction de texte multilingue précise.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite
Revu par
Jeff Fritz
Jeffrey T. Fritz
Responsable principal du programme - Équipe de la communauté .NET
Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP
Prêt à commencer?
Nuget Téléchargements 5,299,091 | Version : 2025.12 vient de sortir