Comment utiliser plusieurs langues avec Tesseract

Comment utiliser plusieurs langages avec Tesseract en C

This article was translated from English: Does it need improvement?
Translated
View the article in English

Dans le domaine de la reconnaissance optique de caractères (OCR), IronOCR est un outil réputé pour sa capacité à extraire du texte de diverses langues et systèmes d'écriture. Nous utilisons le moteur Tesseract pour offrir un outil OCR fiable et convivial.

Dans cet article, nous allons explorer comment IronOCR gère efficacement les textes multilingues grâce à Tesseract. Que vous soyez un développeur expérimenté à la recherche d'une solution OCR multilingue fiable ou simplement curieux de savoir comment cela fonctionne, cet article vous aidera à comprendre IronOCR et son moteur Tesseract, en mettant en lumière les capacités de cet outil précieux.

Démarrage rapide : Utilisation d'IronOCR pour la reconnaissance de texte en plusieurs langues

En une seule ligne de code, vous pouvez configurer IronOCR avec une langue principale et ajouter des langues secondaires pour extraire du texte de documents ou d'images en plusieurs langues. Cette configuration permet aux développeurs de prendre en main rapidement et sans difficulté la reconnaissance optique de caractères multilingue.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer


Lire un exemple de PDF multilingue

IronOcr propose environ 125 packs de langue ; Cependant, seule la langue anglaise est installée par défaut. Le reste peut être téléchargé depuis NuGet. Vous pouvez consulter ici tous les packs de langue disponibles.

Dans l'exemple suivant, je vais vous montrer le code permettant d'utiliser plusieurs langues dans IronOcr pour extraire du texte d'un fichier PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Vous pouvez ajouter autant de langues secondaires que vous le souhaitez à l'aide de la méthode AddSecondaryLanguage . Veuillez toutefois noter que cet ajout peut affecter la vitesse et les performances. La priorité d'une langue dépend de l'ordre dans lequel elle est ajoutée, la première ajoutée ayant la priorité la plus élevée.

Lire un exemple d'image multilingue

La langue principale est définie par défaut sur l'anglais. Pour modifier la langue principale, définissez la propriété Langue sur la langue souhaitée. Vous pourrez ensuite ajouter des langues secondaires.

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Si vous procédez correctement, vous pouvez vous attendre à des résultats comme ceux ci-dessous.

Russe et japonais !

Conclusion

En bref, IronOCR, s'appuyant sur le puissant moteur Tesseract, excelle dans l'extraction de texte à partir de documents en plusieurs langues. C'est un outil indispensable pour gérer la complexité de la lecture de textes dans de nombreuses langues, offrant aux développeurs et aux esprits curieux une solution polyvalente. Que vous traitiez des fichiers PDF contenant du texte en plusieurs langues ou que vous travailliez avec du contenu multilingue dans des images, IronOCR simplifie la tâche de reconnaissance et d'extraction de texte en plusieurs langues.

Questions Fréquemment Posées

Comment puis-je utiliser plusieurs langues dans le traitement OCR ?

Pour utiliser plusieurs langues dans le traitement OCR avec IronOCR, téléchargez la bibliothèque depuis NuGet, préparez votre document, installez des packs de langues supplémentaires, et utilisez la méthode AddSecondaryLanguage pour activer les autres langues.

Comment puis-je extraire du texte d'un PDF multilingue ?

Vous pouvez extraire du texte d'un PDF multilingue en initialisant le moteur OCR IronTesseract, en définissant la langue principale, en ajoutant des langues secondaires en utilisant la méthode AddSecondaryLanguage, et en traitant le PDF pour lire son contenu.

Est-il possible de reconnaître du texte dans plusieurs langues au sein d'une image ?

Oui, avec IronOCR, vous pouvez reconnaître du texte dans plusieurs langues au sein d'une image en définissant la langue principale et en ajoutant des langues secondaires au moteur OCR avant de traiter l'image.

Comment l'ajout de plusieurs langues affecte-t-il la performance de l'OCR ?

L'ajout de plusieurs langues dans IronOCR peut avoir un impact sur la vitesse et la performance du processus OCR. L'ordre des langues ajoutées détermine leur priorité, avec la première langue ajoutée ayant une priorité plus élevée.

Comment puis-je changer la langue par défaut dans IronOCR ?

Vous pouvez changer la langue par défaut dans IronOCR en définissant la propriété Language sur la langue souhaitée avant de traiter vos documents ou images.

Combien de packs de langues IronOCR supporte-t-il ?

IronOCR prend en charge environ 125 packs de langues, bien que seul le pack de langue anglaise soit installé par défaut. Des packs de langues supplémentaires peuvent être téléchargés via NuGet.

Comment puis-je installer des packs de langues supplémentaires dans IronOCR ?

Pour installer des packs de langues supplémentaires dans IronOCR, utilisez le NuGet Package Manager pour télécharger les packs de langues souhaités et les inclure dans votre projet.

IronOCR peut-il lire le texte dans des langues avec différents scripts ?

Oui, IronOCR peut lire le texte dans diverses langues avec différents scripts en utilisant le moteur Tesseract et en activant les packs de langues pertinents.

Quel est l'avantage d'utiliser IronOCR pour le contenu multilingue ?

IronOCR fournit une solution polyvalente pour reconnaître et extraire du texte à partir de contenu multilingue, ce qui le rend idéal pour les développeurs traitant des documents ou des images contenant du texte dans plusieurs langues.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Pendant qu'il poursuivait son diplôme, Kannapat est également devenu membre du laboratoire de robotique de véhicules, qui fait partie du département de bioproduction. En 2022, il a utilisé ses compé...
Lire la suite
Revu par
Jeff Fritz
Jeffrey T. Fritz
Responsable principal du programme - Équipe de la communauté .NET
Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP
Prêt à commencer?
Nuget Téléchargements 5,167,857 | Version: 2025.11 vient de sortir