Comment utiliser plusieurs langues avec Tesseract ?

This article was translated from English: Does it need improvement?
Translated
View the article in English

par Chipego Kalinda

Dans le domaine de la reconnaissance optique des caractères(OCR) ironOCR est un outil réputé pour sa capacité à extraire du texte à partir de différentes langues et écritures. Nous utilisons le moteur Tesseract pour fournir un outil OCR fiable et facile à utiliser.

Dans cet article, nous verrons comment IronOCR traite efficacement des textes en plusieurs langues, grâce à Tesseract. Que vous soyez un développeur expérimenté à la recherche d'une solution d'OCR multilingue fiable ou simplement curieux de savoir comment tout cela fonctionne, cet article vous aidera à comprendre IronOCR et son moteur Tesseract, en mettant en lumière les capacités de cet outil inestimable

Commencez avec IronOCR

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.

Première étape :
green arrow pointer



Lire un exemple de PDF multilingue

IronOCR fournit environ 125 packs de langues, mais seul l'anglais est installé par défaut, les autres peuvent être téléchargés depuis NuGet. Vous pouvez consulter toutes les informations disponiblespacks de langues ici..

Dans l'exemple suivant, je vous montrerai le code permettant d'utiliser plusieurs langues dans IronOCR pour extraire du texte d'un fichier PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

Vous pouvez ajouter un nombre quelconque de langues secondaires à l'aide de la méthode AddSecondaryLanguage. Cependant, veuillez noter que cet ajout peut affecter la vitesse et la performance. La priorité de la langue dépend de l'ordre dans lequel elle est ajoutée, la première ajoutée ayant une priorité plus élevée.

Lire un exemple d'image multilingue

La langue principale est définie par défaut sur l'anglais. Pour modifier la langue principale, définissez la propriété Language dans la langue souhaitée. Vous pouvez ensuite ajouter des langues secondaires.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

Si vous procédez correctement, vous pouvez vous attendre à des résultats tels que ceux décrits ci-dessous.

Russe et japonais

Conclusion

En bref, IronOCR, soutenu par le puissant moteur Tesseract, excelle dans l'extraction de texte à partir de documents en plusieurs langues. Il s'agit d'un outil indispensable pour gérer les complexités de la lecture de textes dans de nombreuses langues, offrant aux développeurs et aux esprits curieux une solution polyvalente. Que vous traitiez des PDF contenant du texte dans différentes langues ou que vous travailliez avec du contenu multilingue dans des images, IronOCR simplifie la tâche de reconnaissance et d'extraction de texte dans plusieurs langues.

Chipego related to Conclusion

Chipego

Ingénieur logiciel

Chipego a une capacité d'écoute naturelle qui l'aide à comprendre les problèmes des clients et à proposer des solutions intelligentes. Il a rejoint l'équipe d'Iron Software en 2023, après avoir obtenu une licence en technologie de l'information. IronPDF et IronOCR sont les deux produits sur lesquels Chipego s'est concentré, mais sa connaissance de tous les produits s'accroît chaque jour, au fur et à mesure qu'il trouve de nouvelles façons d'aider les clients. Il apprécie l'esprit de collaboration qui règne chez Iron Software, les membres de l'équipe venant de toute l'entreprise et apportant leur expérience variée pour contribuer à l'élaboration de solutions efficaces et innovantes. Lorsque Chipego n'est pas à son bureau, on le trouve souvent en train de lire un bon livre ou de jouer au football.