Comment utiliser plusieurs langues avec Tesseract

Comment utiliser plusieurs langues avec Tesseract en C

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR permet d'extraire du texte à partir de documents en plusieurs langues à l'aide du moteur Tesseract en configurant les langues primaires et secondaires avec une seule ligne de code, en prenant en charge plus de 125 packs de langues pour un traitement OCR multilingue transparent.

Introduction

IronOCR fournit une extraction de texte à partir de divers langages et scripts en utilisant le Tesseract Engine comme outil OCR fiable.

Cet article explore la manière dont IronOCR traite les textes en plusieurs langues grâce à Tesseract. Vous apprendrez comment implémenter des solutions OCR multilingues et comprendre les capacités d'IronOCR et son intégration avec le moteur Tesseract.

Le traitement de documents dans plusieurs langues est essentiel pour les applications modernes. Les documents commerciaux internationaux, les sites web multilingues et les plateformes de communication mondiales nécessitent une extraction de texte précise au-delà des barrières linguistiques. IronOCR répond à ce besoin en s'intégrant au support linguistique étendu de Tesseract, permettant l'extraction de texte à partir de documents contenant plusieurs scripts et jeux de caractères simultanément.

Quickstart : Utiliser IronOCR pour reconnaître le texte en plusieurs langues

Configurez IronOCR avec une langue principale et ajoutez des langues secondaires en une seule ligne pour extraire du texte à partir de documents ou d'images multilingues.

  1. Installez IronOCR avec le Gestionnaire de Packages NuGet

    PM > Install-Package IronOcr
  2. Copiez et exécutez cet extrait de code.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit

    arrow pointer


Comment lire des PDF multilingues avec IronOcr?

IronOCR propose environ 125 packs de langues ; seul l'anglais est installé par défaut. Téléchargez d'autres langues à partir de NuGet. Consultez tous les packs de langues disponibles ici..

Les PDF contenant plusieurs langues nécessitent une configuration spécifique du moteur OCR. IronOcr vous permet de spécifier les langues principales et secondaires avant de traiter les documents, ce qui garantit une précision de reconnaissance optimale entre les différents scripts et jeux de caractères.

Quelles sont les langues disponibles pour l'extraction de PDF ?

L'exemple suivant montre comment utiliser plusieurs langues dans IronOCR pour extraire du texte à partir d'un fichier PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Pour les scénarios de traitement PDF complexes, consultez notre guide sur PDF OCR Text Extraction couvrant des techniques avancées pour divers formats et structures PDF.

Comment la priorité linguistique affecte-t-elle les résultats de l'OCR?

Ajoutez autant de langues secondaires que vous le souhaitez à l'aide de la méthode AddSecondaryLanguage. Notez que l'ajout de langues supplémentaires peut avoir une incidence sur la vitesse et les performances. La priorité des langues dépend de l'ordre dans lequel elles ont été ajoutées, la première ayant la priorité la plus élevée.

Il est essentiel de comprendre les priorités linguistiques lors du traitement de documents multilingues. La langue principale reçoit la plus haute priorité lors de l'extraction de texte — le moteur OCR tente d'abord de faire correspondre les caractères avec le jeu de caractères de la langue principale. Les langues secondaires sont consultées lors de la rencontre de caractères qui ne correspondent pas aux schémas de la langue principale.

Pour des performances optimales :

  • Définissez la langue la plus courante de votre document comme langue principale
  • Ajouter les langues secondaires par ordre de fréquence dans le document
  • Limitez les langues secondaires à celles qui sont nécessaires pour votre cas d'utilisation

Pour les applications performantes comportant plusieurs langues, consultez notre guide Configuration rapide de l'OCR afin d'optimiser la vitesse de traitement.

Comment traiter des images multilingues avec Tesseract?

L'anglais est la langue principale par défaut. Pour la modifier, définissez la propriété Language sur la langue de votre choix, puis ajoutez des langues secondaires si nécessaire.

Les images contenant du texte multilingue doivent être configurées avec soin. Contrairement aux PDF, les images peuvent contenir des orientations de texte variées, différentes polices et des scripts mélangés. L'intégration Tesseract d'IronOCR offre des options de configuration linguistique complètes pour ces scénarios.

Quand dois-je changer le paramètre de langue par défaut?

Modifier la langue par défaut lorsque :

  • Le document est majoritairement rédigé dans une langue autre que l'anglais
  • Traitement de documents provenant d'une région ou d'un pays spécifique
  • Votre application s'adresse à des utilisateurs travaillant avec du contenu non anglophone
  • Optimiser la précision de la reconnaissance pour des jeux de caractères spécifiques

Voici un exemple complet de traitement d'images multilingue :

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Pour les langues personnalisées ou les polices spécialisées, consultez notre tutoriel sur Utilisation de fichiers de langues personnalisées.

Quels résultats puis-je attendre de l'OCR multilingue?

Une configuration adéquate permet d'obtenir des résultats comme ceux-ci :

Application de traitement de texte multilingue affichant du contenu en russe et en japonais avec une sortie console indiquant le traitement des caractères

La qualité des résultats de l'OCR multilingue dépend de plusieurs facteurs :

  1. Qualité de l'image : Une résolution plus élevée (300+ DPI) donne de meilleurs résultats. Voir notre guide des paramètres DPI.
  2. Clarté du texte : Un texte clair et bien défini sans artefacts donne une reconnaissance plus précise
  3. Configuration linguistique : Une configuration correcte de la langue principale et secondaire assure des schémas de reconnaissance des caractères corrects
  4. Prétraitement : Des filtres appropriés améliorent considérablement les résultats. Consultez notre guide Filtres de correction d'image pour les techniques d'amélioration.

Quels sont les principaux enseignements à tirer de l'OCR multilingue ?

IronOCR, qui utilise le moteur Tesseract, extrait efficacement du texte à partir de documents multilingues. La traduction doit rester professionnelle et préserver l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement. Qu'il s'agisse de traiter des PDF avec différentes langues ou de travailler avec des contenus d'images multilingues, IronOcr simplifie la reconnaissance et l'extraction de texte d'une langue à l'autre.

Principaux avantages d'IronOCR pour l'extraction de texte multilingue :

  • Support linguistique étendu : Plus de 125 langues OCR internationales via des packages NuGet
  • Configuration flexible : API simple pour les réglages de langue principale et secondaire
  • Haute précision : Utilise les algorithmes de reconnaissance avancés de Tesseract 5
  • Optimisation de la performance : Support intégré du multithreading
  • <Compatibilité multiplateforme : Fonctionne sous Windows, Linux et macOS

IronOCR fournit une solution complète combinant facilité d'utilisation et fonctionnalités puissantes pour la mise en œuvre de l'OCR en plusieurs langues. Créez des systèmes de gestion de documents, des outils de traduction ou toute autre application nécessitant une extraction de texte multilingue avec la flexibilité et la fiabilité nécessaires pour réussir.

Démarrez votre projet d'OCR multilingue en téléchargeant IronOCR depuis NuGet et en explorant notre documentation et nos exemples. Pour les cas d'utilisation spécifiques ou les scénarios avancés, nos guides de dépannage fournissent des indications pour des résultats optimaux.

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant plusieurs langues ?

IronOCR vous permet de configurer l'OCR multilingue avec une seule ligne de code. Définissez une langue principale à l'aide de la propriété Language et ajoutez des langues secondaires à l'aide de la méthode AddSecondaryLanguage. IronOCR peut ainsi extraire avec précision du texte de documents contenant simultanément plusieurs scripts et jeux de caractères.

Quelles sont les langues prises en charge pour l'extraction de texte ?

IronOCR prend en charge plus de 125 packs de langues grâce à l'intégration de son moteur Tesseract. Si l'anglais est installé par défaut, vous pouvez télécharger des packs linguistiques supplémentaires depuis NuGet pour activer les fonctionnalités d'OCR pour des langues allant de l'espagnol et du français à l'arabe, au chinois, au japonais et bien d'autres encore.

Comment ajouter des langues secondaires pour le traitement OCR ?

Utilisez la méthode AddSecondaryLanguage dans IronOCR pour activer des langues supplémentaires. Par exemple : new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Cette configuration permet à IronOCR de reconnaître du texte en espagnol et en français dans le même document.

Puis-je extraire du texte à partir de PDF multilingues ?

Oui, IronOCR peut traiter des PDF contenant plusieurs langues. Il suffit de configurer le moteur OCR avec votre langue principale et votre langue secondaire avant le traitement. IronOCR traitera automatiquement les différents scripts et jeux de caractères du PDF, garantissant ainsi une extraction de texte précise dans toutes les langues présentes dans le document.

Dois-je installer les packs linguistiques séparément ?

Oui. Bien qu'IronOCR comprenne l'anglais par défaut, des packs linguistiques supplémentaires doivent être installés via NuGet. Chaque pack de langue contient les données nécessaires pour que le moteur Tesseract d'IronOCR reconnaisse le texte dans cette langue spécifique. Vous pouvez voir et télécharger tous les packs de langues disponibles sur la page des langues d'IronOCR.

Quel est le flux de travail minimal pour l'OCR multilingue ?

Le flux de travail minimal comprend 5 étapes : 1) Télécharger la bibliothèque IronOCR, 2) Préparer votre document PDF ou image, 3) Installer les packs linguistiques requis via NuGet, 4) Utiliser la méthode AddSecondaryLanguage pour activer des langues supplémentaires, et 5) Définir la propriété Language pour votre langue principale. Cette configuration permet une extraction de texte multilingue précise.

IronOCR peut-il être intégré dans des applications existantes ?

IronOCR est conçu pour être facilement intégré dans les applications existantes en utilisant C#, permettant aux développeurs d'ajouter des fonctionnalités OCR à leur logiciel avec un minimum d'effort.

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Utiliser IronOCR pour la gestion des documents rationalise le flux de travail en convertissant les documents numérisés en texte modifiable et consultable, réduisant le besoin de saisie manuelle des données et améliorant l'accessibilité des documents.

Comment IronOCR peut-il améliorer la précision des données ?

IronOCR améliore la précision des données grâce à ses algorithmes de reconnaissance avancés et ses fonctionnalités de correction d'image, garantissant que le processus d'extraction de texte est à la fois fiable et précis.

Y a-t-il un essai gratuit disponible pour IronOCR ?

Oui, Iron Software propose un essai gratuit d'IronOCR, permettant aux utilisateurs de tester ses fonctionnalités et capacités avant de prendre une décision d'achat.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite
Revu par
Jeff Fritz
Jeffrey T. Fritz
Responsable principal du programme - Équipe de la communauté .NET
Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP
Prêt à commencer?
Nuget Téléchargements 5,896,332 | Version : 2026.5 just released
Still Scrolling Icon

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.