Comment utiliser un langage personnalisé avec Tesseract en C

This article was translated from English: Does it need improvement?
Translated
View the article in English

En matière de reconnaissance optique de caractères (OCR), il est parfois nécessaire de gérer des langues personnalisées, des scripts spécialisés ou des chiffrements. Pour lire une image d'entrée contenant une langue personnalisée, le moteur Tesseract doit recevoir des données d'entraînement pour cette langue spécifique. Ces données sont stockées dans un fichier spécial .traineddata .

Bien que le processus complexe de création (entraînement) de ce fichier soit réalisé à l'aide des propres outils de Tesseract, IronOCR prend entièrement en charge l'utilisation de ces fichiers de langue personnalisés. Cela vous permet d'appliquer votre modèle entraîné pour déchiffrer et lire du texte à partir de n'importe quelle entrée. Dans ce guide pratique, nous allons vous montrer comment charger et utiliser un fichier .traineddata personnalisé avec IronOCR.

Commencez avec IronOCR

Commencez à utiliser IronOCR dans votre projet aujourd'hui avec un essai gratuit.

Première étape :
green arrow pointer


Langue personnalisée avec Tesseract

Pour utiliser un langage personnalisé avec Tesseract, nous devons d'abord charger notre fichier .traineddata en appelant la méthode UseCustomTesseractLanguageFile . Il s'agit d'une étape essentielle, car ce fichier contient toutes les données d'entraînement qui permettent à Tesseract de reconnaître les caractères uniques de la langue personnalisée.

Ensuite, nous chargeons notre document d'entrée comme pour une opération OCR classique. Dans ce cas précis, nous chargeons un PDF contenant des paragraphes en langue personnalisée à l'aide LoadPdf .

Enfin, nous utilisons la méthode Read pour extraire le texte de l'entrée. Le résultat peut ensuite être affiché sur la console ou, comme le montre l'exemple, enregistré (retransmis) dans un fichier texte pour référence.

Entrée

Nous utiliserons comme entrée cet exemple de PDF, qui contient du texte dans notre langue personnalisée.

Nous utiliserons ce fichier .traindata de langage personnalisé pour notre exemple.

Exemple de Code

:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs
using IronOcr;
using System;
using System.IO;

var ocrTesseract = new IronTesseract();

// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");

using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");

var ocrResult = ocrTesseract.Read(ocrInput);

// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");

// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);

Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Sortie

Texte de sortie OCR

Ce résultat affiche les données issues de notre modèle de langage personnalisé. Comme vous pouvez le constater, en fournissant les données d'entraînement correctes, IronOCR a réussi à déchiffrer le texte, et le résultat est en anglais clair. De plus, voici le fichier texte généré par le code.

Questions Fréquemment Posées

Quel est l'intérêt d'utiliser une langue personnalisée avec Tesseract dans IronOCR ?

L'utilisation d'un langage personnalisé avec Tesseract dans IronOCR permet de reconnaître et d'extraire du texte à partir d'images ou de PDF contenant des systèmes d'écriture ou des langues spécifiques non prises en charge par défaut. Pour ce faire, il suffit de charger un fichier `.traineddata` personnalisé contenant les données d'entraînement nécessaires à ce langage.

Comment charger un fichier de données d'entraînement linguistique personnalisé dans IronOCR ?

Vous pouvez charger un fichier de données d'entraînement personnalisé dans IronOCR à l'aide de la méthode `UseCustomTesseractLanguageFile`. Cette étape est cruciale car elle fournit au moteur Tesseract les données d'entraînement nécessaires à la reconnaissance des caractères uniques de la langue personnalisée.

Quelles sont les étapes à suivre pour effectuer une reconnaissance optique de caractères (OCR) sur une image comportant une langue personnalisée à l'aide d'IronOCR ?

Pour effectuer une reconnaissance optique de caractères (OCR) sur une image avec une langue personnalisée à l'aide d'IronOCR, commencez par télécharger la bibliothèque C#, initialisez le moteur OCR, chargez les données d'entraînement de la langue personnalisée avec `UseCustomTesseractLanguageFile`, chargez l'image d'entrée avec `LoadImage`, et enfin extrayez le texte à l'aide de la méthode `Read`.

IronOCR peut-il traiter les PDF contenant du texte en langue personnalisée ?

Oui, IronOCR peut traiter les PDF contenant du texte dans une langue personnalisée. Vous pouvez charger le PDF à l'aide de la méthode `LoadPdf` puis utiliser la méthode `Read` pour extraire le texte à partir des données d'entraînement fournies pour la langue personnalisée.

Qu'est-ce qu'un fichier `.traineddata` dans le contexte de Tesseract et IronOCR ?

Un fichier `.traineddata` est un fichier de données utilisé par Tesseract OCR qui contient les données d'entraînement pour une langue spécifique. Il permet au moteur OCR de reconnaître et de traiter les caractères de cette langue et peut être utilisé dans IronOCR pour gérer des langues personnalisées.

Dois-je créer mon propre fichier `.traineddata` pour chaque langue personnalisée dans IronOCR ?

Non, il n'est pas nécessaire de créer un fichier `.traineddata` pour chaque langage personnalisé. Vous pouvez utiliser les fichiers `.traineddata` existants, s'ils sont disponibles. Toutefois, si un langage spécifique n'est pas pris en charge, vous devrez peut-être en créer un à l'aide des outils de Tesseract.

Quels sont les formats de sortie pris en charge par IronOCR lors de l'utilisation de langues personnalisées ?

IronOCR prend en charge différents formats de sortie lors de l'utilisation de langues personnalisées, comme la sortie en texte brut qui peut être affichée dans la console ou enregistrée dans un fichier texte. Le texte extrait peut ensuite être manipulé selon les besoins.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 5,167,857 | Version: 2025.11 vient de sortir