Comment utiliser plusieurs langues avec Tesseract

How to use Multiple Languages with Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

Dans le domaine de la technologie de reconnaissance optique de caractères (OCR), IronOCR est un outil réputé pour sa capacité à extraire du texte à partir de différents langages et scripts. Nous utilisons le moteur Tesseract pour fournir un outil OCR fiable et facile à utiliser.

Dans cet article, nous allons explorer comment IronOCR traite efficacement des textes en plusieurs langues, grâce à Tesseract. Que vous soyez un développeur expérimenté à la recherche d'une solution OCR multilingue fiable ou simplement curieux de savoir comment tout cela fonctionne, cet article vous aidera à comprendre IronOCR et son moteur Tesseract, en mettant en lumière les capacités de cet outil inestimable.

Démarrage rapide : utilisation d'IronOcr pour reconnaître du texte dans plusieurs langues

En une seule ligne de code, vous pouvez configurer IronOCR avec une langue principale et ajouter des langues secondaires pour extraire du texte de documents ou d'images dans plusieurs langues. Cette configuration permet aux développeurs d'utiliser l'OCR multilingue rapidement et sans problème.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer


Lire un exemple de PDF multilingue

IronOcr propose environ 125 packs de langues ; cependant, seul l'anglais est installé par défaut. Le reste peut être téléchargé à partir de NuGet. Vous pouvez consulter tous les packs linguistiques disponibles ici.

Dans l'exemple suivant, je vous montrerai le code permettant d'utiliser plusieurs langues dans IronOcr pour extraire du texte d'un fichier PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Vous pouvez ajouter autant de langues secondaires que vous le souhaitez à l'aide de la méthode AddSecondaryLanguage. Toutefois, veuillez noter que cet ajout peut affecter la vitesse et la performance. La priorité de la langue dépend de l'ordre dans lequel elle est ajoutée, la première ajoutée ayant une priorité plus élevée.

Lire l'exemple d'une image multilingue

La langue principale est définie par défaut sur l'anglais. Pour modifier la langue principale, définissez la propriété Language en fonction de la langue souhaitée. Par la suite, vous pouvez également ajouter des langues secondaires.

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Si vous faites bien les choses, vous pouvez vous attendre à des résultats comme ceux qui suivent.

Russe et japonais

Conclusion

En bref, IronOCR, soutenu par le puissant moteur Tesseract, excelle dans l'extraction de texte à partir de documents dans plusieurs langues. Il s'agit d'un outil indispensable pour gérer les complexités de la lecture de textes dans plusieurs langues, offrant aux développeurs et aux esprits curieux une solution polyvalente. Que vous traitiez des PDF contenant du texte dans différentes langues ou que vous travailliez avec du contenu multilingue dans des images, IronOcr simplifie la tâche de reconnaissance et d'extraction de texte dans plusieurs langues.

Questions Fréquemment Posées

Comment puis-je utiliser plusieurs langues dans le traitement OCR ?

Pour utiliser plusieurs langues dans le traitement OCR avec IronOCR, téléchargez la bibliothèque depuis NuGet, préparez votre document, installez des packs de langues supplémentaires, et utilisez la méthode AddSecondaryLanguage pour activer les autres langues.

Comment puis-je extraire du texte d'un PDF multilingue ?

Vous pouvez extraire du texte d'un PDF multilingue en initialisant le moteur OCR IronTesseract, en définissant la langue principale, en ajoutant des langues secondaires en utilisant la méthode AddSecondaryLanguage, et en traitant le PDF pour lire son contenu.

Est-il possible de reconnaître du texte dans plusieurs langues au sein d'une image ?

Oui, avec IronOCR, vous pouvez reconnaître du texte dans plusieurs langues au sein d'une image en définissant la langue principale et en ajoutant des langues secondaires au moteur OCR avant de traiter l'image.

Comment l'ajout de plusieurs langues affecte-t-il la performance de l'OCR ?

L'ajout de plusieurs langues dans IronOCR peut avoir un impact sur la vitesse et la performance du processus OCR. L'ordre des langues ajoutées détermine leur priorité, avec la première langue ajoutée ayant une priorité plus élevée.

Comment puis-je changer la langue par défaut dans IronOCR ?

Vous pouvez changer la langue par défaut dans IronOCR en définissant la propriété Language sur la langue souhaitée avant de traiter vos documents ou images.

Combien de packs de langues IronOCR supporte-t-il ?

IronOCR prend en charge environ 125 packs de langues, bien que seul le pack de langue anglaise soit installé par défaut. Des packs de langues supplémentaires peuvent être téléchargés via NuGet.

Comment puis-je installer des packs de langues supplémentaires dans IronOCR ?

Pour installer des packs de langues supplémentaires dans IronOCR, utilisez le NuGet Package Manager pour télécharger les packs de langues souhaités et les inclure dans votre projet.

IronOCR peut-il lire le texte dans des langues avec différents scripts ?

Oui, IronOCR peut lire le texte dans diverses langues avec différents scripts en utilisant le moteur Tesseract et en activant les packs de langues pertinents.

Quel est l'avantage d'utiliser IronOCR pour le contenu multilingue ?

IronOCR fournit une solution polyvalente pour reconnaître et extraire du texte à partir de contenu multilingue, ce qui le rend idéal pour les développeurs traitant des documents ou des images contenant du texte dans plusieurs langues.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite
Revu par
Jeff Fritz
Jeffrey T. Fritz
Responsable principal du programme - Équipe de la communauté .NET
Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP
Prêt à commencer?
Nuget Téléchargements 5,044,537 | Version : 2025.11 vient de sortir