Comment utiliser plusieurs langues avec Tesseract ?

Kannapat Udonpant

octobre 25, 2023

Mise à jour décembre 10, 2024

Translated

View the article in English

Dans le domaine de la technologie de reconnaissance optique de caractères (OCR), IronOCR est un outil bien considéré, reconnu pour sa capacité à extraire du texte à partir de diverses langues et écritures. Nous utilisons le moteur Tesseract pour fournir un outil OCR fiable et facile à utiliser.

Dans cet article, nous verrons comment IronOCR traite efficacement des textes en plusieurs langues, grâce à Tesseract. Que vous soyez un développeur expérimenté à la recherche d'une solution d'OCR multilingue fiable ou simplement curieux de savoir comment tout cela fonctionne, cet article vous aidera à comprendre IronOCR et son moteur Tesseract, en mettant en lumière les capacités de cet outil inestimable

Commencez avec IronOCR

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.

Première étape :

Comment utiliser plusieurs langues avec Tesseract ?

Téléchargez une bibliothèque C# pour la lecture de plusieurs langues
Préparer le document PDF et l'image pour la lecture
Installer un pack linguistique supplémentaire via NuGet
Utilisez la méthode AddSecondaryLanguage pour activer les langues souhaitées
Définir la propriété Language pour changer la langue par défaut

Lire un exemple de PDF multilingue

IronOCR fournit environ 125 packs de langues, mais seul l'anglais est installé par défaut, les autres peuvent être téléchargés depuis NuGet. Vous pouvez consulter tous les packs de langues disponibles ici.

Dans l'exemple suivant, je vous montrerai le code permettant d'utiliser plusieurs langues dans IronOCR pour extraire du texte d'un fichier PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

Vous pouvez ajouter un nombre quelconque de langues secondaires en utilisant la méthode AddSecondaryLanguage. Cependant, veuillez noter que cet ajout peut affecter la vitesse et la performance. La priorité de la langue dépend de l'ordre dans lequel elle est ajoutée, la première ajoutée ayant une priorité plus élevée.

Lire un exemple d'image multilingue

La langue principale est définie par défaut sur l'anglais. Pour changer la langue principale, définissez la propriété Language sur la langue souhaitée. Vous pouvez ensuite ajouter des langues secondaires.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

Si vous procédez correctement, vous pouvez vous attendre à des résultats tels que ceux décrits ci-dessous.

Russe et Japonais

Conclusion

En bref, IronOCR, soutenu par le puissant moteur Tesseract, excelle dans l'extraction de texte à partir de documents en plusieurs langues. Il s'agit d'un outil indispensable pour gérer les complexités de la lecture de textes dans de nombreuses langues, offrant aux développeurs et aux esprits curieux une solution polyvalente. Que vous traitiez des PDF contenant du texte dans différentes langues ou que vous travailliez avec du contenu multilingue dans des images, IronOCR simplifie la tâche de reconnaissance et d'extraction de texte dans plusieurs langues.

Kannapat Udonpant

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.