Comment utiliser plusieurs langues avec Tesseract ?
Dans le domaine de la reconnaissance optique des caractères(OCR) ironOCR est un outil réputé pour sa capacité à extraire du texte à partir de différentes langues et écritures. Nous utilisons le moteur Tesseract pour fournir un outil OCR fiable et facile à utiliser.
Dans cet article, nous verrons comment IronOCR traite efficacement des textes en plusieurs langues, grâce à Tesseract. Que vous soyez un développeur expérimenté à la recherche d'une solution d'OCR multilingue fiable ou simplement curieux de savoir comment tout cela fonctionne, cet article vous aidera à comprendre IronOCR et son moteur Tesseract, en mettant en lumière les capacités de cet outil inestimable
Commencez avec IronOCR
Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.
Comment utiliser plusieurs langues avec Tesseract ?
- Télécharger une bibliothèque C# pour la lecture de plusieurs langues
- Préparer le document PDF et l'image pour la lecture
- Installer un pack linguistique supplémentaire via NuGet
- Utiliser le
AddSecondaryLanguage
pour activer les langues souhaitées - Régler le Langue pour modifier la langue par défaut
Lire un exemple de PDF multilingue
IronOCR fournit environ 125 packs de langues, mais seul l'anglais est installé par défaut, les autres peuvent être téléchargés depuis NuGet. Vous pouvez consulter toutes les informations disponiblespacks de langues ici..
Dans l'exemple suivant, je vous montrerai le code permettant d'utiliser plusieurs langues dans IronOCR pour extraire du texte d'un fichier PDF.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
Vous pouvez ajouter un nombre quelconque de langues secondaires à l'aide de la méthode AddSecondaryLanguage
. Cependant, veuillez noter que cet ajout peut affecter la vitesse et la performance. La priorité de la langue dépend de l'ordre dans lequel elle est ajoutée, la première ajoutée ayant une priorité plus élevée.
Lire un exemple d'image multilingue
La langue principale est définie par défaut sur l'anglais. Pour modifier la langue principale, définissez la propriété Language dans la langue souhaitée. Vous pouvez ensuite ajouter des langues secondaires.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
Si vous procédez correctement, vous pouvez vous attendre à des résultats tels que ceux décrits ci-dessous.
Conclusion
En bref, IronOCR, soutenu par le puissant moteur Tesseract, excelle dans l'extraction de texte à partir de documents en plusieurs langues. Il s'agit d'un outil indispensable pour gérer les complexités de la lecture de textes dans de nombreuses langues, offrant aux développeurs et aux esprits curieux une solution polyvalente. Que vous traitiez des PDF contenant du texte dans différentes langues ou que vous travailliez avec du contenu multilingue dans des images, IronOCR simplifie la tâche de reconnaissance et d'extraction de texte dans plusieurs langues.