Comment utiliser plusieurs langues avec Tesseract ?
Dans le domaine de la technologie de reconnaissance optique de caractères (OCR), IronOCR est un outil bien considéré, reconnu pour sa capacité à extraire du texte à partir de diverses langues et écritures. Nous utilisons le moteur Tesseract pour fournir un outil OCR fiable et facile à utiliser.
Dans cet article, nous verrons comment IronOCR traite efficacement des textes en plusieurs langues, grâce à Tesseract. Que vous soyez un développeur expérimenté à la recherche d'une solution d'OCR multilingue fiable ou simplement curieux de savoir comment tout cela fonctionne, cet article vous aidera à comprendre IronOCR et son moteur Tesseract, en mettant en lumière les capacités de cet outil inestimable
Commencez avec IronOCR
Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.
Comment utiliser plusieurs langues avec Tesseract ?
- Téléchargez une bibliothèque C# pour la lecture de plusieurs langues
- Préparer le document PDF et l'image pour la lecture
- Installer un pack linguistique supplémentaire via NuGet
- Utilisez la méthode
AddSecondaryLanguage
pour activer les langues souhaitées - Définir la propriété Language pour changer la langue par défaut
Lire un exemple de PDF multilingue
IronOCR fournit environ 125 packs de langues, mais seul l'anglais est installé par défaut, les autres peuvent être téléchargés depuis NuGet. Vous pouvez consulter tous les packs de langues disponibles ici.
Dans l'exemple suivant, je vous montrerai le code permettant d'utiliser plusieurs langues dans IronOCR pour extraire du texte d'un fichier PDF.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
Vous pouvez ajouter un nombre quelconque de langues secondaires en utilisant la méthode AddSecondaryLanguage
. Cependant, veuillez noter que cet ajout peut affecter la vitesse et la performance. La priorité de la langue dépend de l'ordre dans lequel elle est ajoutée, la première ajoutée ayant une priorité plus élevée.
Lire un exemple d'image multilingue
La langue principale est définie par défaut sur l'anglais. Pour changer la langue principale, définissez la propriété Language sur la langue souhaitée. Vous pouvez ensuite ajouter des langues secondaires.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
Si vous procédez correctement, vous pouvez vous attendre à des résultats tels que ceux décrits ci-dessous.
Conclusion
En bref, IronOCR, soutenu par le puissant moteur Tesseract, excelle dans l'extraction de texte à partir de documents en plusieurs langues. Il s'agit d'un outil indispensable pour gérer les complexités de la lecture de textes dans de nombreuses langues, offrant aux développeurs et aux esprits curieux une solution polyvalente. Que vous traitiez des PDF contenant du texte dans différentes langues ou que vous travailliez avec du contenu multilingue dans des images, IronOCR simplifie la tâche de reconnaissance et d'extraction de texte dans plusieurs langues.