Comment utiliser un langage personnalisé avec Tesseract en C

Mis à jour:12 février 2026

Translated

View the article in English

IronOCR permet l'OCR pour les langues personnalisées, les scripts spécialisés ou les chiffrements en chargeant les fichiers Tesseract .traineddata via la méthode UseCustomTesseractLanguageFile, vous permettant d'extraire du texte de n'importe quel modèle de langue entraîné sur mesure.

as-heading:2(Démarrage rapide : Charger une langue personnalisée pour la reconnaissance optique de caractères (OCR))

Installez IronOCR avec le Gestionnaire de Packages NuGet
PM > Install-Package IronOcr

Copiez et exécutez cet extrait de code.

using IronOcr;

// Initialize OCR engine
var ocr = new IronTesseract();

// Load custom language file
ocr.UseCustomTesseractLanguageFile("custom.traineddata");

// Process document
using var input = new OcrInput();
input.LoadImage("document.png");

// Extract text
var result = ocr.Read(input);
Console.WriteLine(result.Text);

Déployez pour tester sur votre environnement de production.

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit

Installer IronOCR via le Package Manager NuGet
Chargez votre fichier personnalisé .traineddata avec UseCustomTesseractLanguageFile
Créez un OcrInput et chargez votre document
Appelez Read() pour extraire le texte dans votre langue personnalisée
Enregistrer ou traiter le texte extrait

La reconnaissance optique de caractères (OCR) nécessite parfois la manipulation de langages personnalisés, de scripts spécialisés ou de codes chiffrés. Pour lire une image d'entrée contenant une langue personnalisée, le moteur Tesseract doit recevoir des données d'entraînement pour cette langue spécifique. Ces données sont stockées dans un fichier spécial .traineddata.

Bien que le processus complexe de création (entraînement) de ce fichier soit réalisé à l'aide des propres outils de Tesseract, IronOCR prend entièrement en charge l'utilisation de ces fichiers de langue personnalisés. Cela vous permet d'appliquer votre modèle entraîné pour déchiffrer et lire du texte à partir de n'importe quelle entrée. Ce guide montre comment charger et utiliser un fichier personnalisé .traineddata avec IronOCR.

Comment utiliser des langues personnalisées avec Tesseract

Téléchargez une bibliothèque C# pour la lecture d'un langage personnalisé.
Initialisez le moteur OCR
Chargez les données d'entraînement linguistique personnalisées avec `UseCustomTesseractLanguageFile`
Chargez l'image d'entrée avec `LoadImage`
Lisez et extrayez l'image d'entrée de la langue personnalisée avec `Read`

Comment implémenter l'OCR d'une langue personnalisée avec Tesseract?

Pour utiliser un langage personnalisé avec Tesseract, chargez d'abord votre fichier .traineddata en appelant la méthode UseCustomTesseractLanguageFile. Il s'agit d'une étape essentielle, car ce fichier contient toutes les données d'entraînement qui permettent à Tesseract de reconnaître les caractères uniques de la langue personnalisée.

La prise en charge des langues personnalisées dans IronOCR va au-delà des langues standard. Que vous travailliez avec des scripts historiques, des langues inventées ou des systèmes de notation spécialisés, le même processus s'applique. Pour les projets nécessitant plusieurs langues, consultez notre guide sur la lecture de plusieurs langues ou découvrez les 125 langues internationales d'OCR prises en charge dès le départ.

Ensuite, chargez votre document d'entrée comme vous le feriez pour une opération d'OCR classique. Nous chargeons un PDF contenant des paragraphes en langue personnalisée en utilisant LoadPdf. IronOCR prend en charge différents formats d'entrée, notamment images (jpg, png, gif, tiff, bmp) et PDFs.

Enfin, utilisez la méthode Read pour extraire le texte de l'entrée. Le résultat peut ensuite être imprimé sur la console ou enregistré dans un fichier texte pour référence.

Quelles sont les données de formation dont j'ai besoin pour les langues personnalisées ?

Nous utiliserons comme entrée cet exemple de PDF, qui contient du texte dans notre langue personnalisée.

Nous utiliserons ce langage personnalisé .traindata pour notre exemple.

La qualité et l'exhaustivité de vos données de formation ont un impact direct sur la précision de l'OCR. Lors de la préparation des données de formation linguistique personnalisée :

Couverture des caractères : assurez-vous que vos données de formation comprennent tous les caractères et symboles
Variations de polices : Incluez plusieurs styles de polices si vos documents présentent des variations typographiques
Qualité des images : Entraînez-vous avec des images similaires à celles que vous traiterez en production
Context Patterns : Inclure des combinaisons de mots et des phrases courantes

Pour les options de configuration avancées, consultez notre Guide de configuration détaillé de Tesseract.

Comment charger et traiter des documents en langue personnalisée?

:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs

using IronOcr;
using System;
using System.IO;

var ocrTesseract = new IronTesseract();

// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");

using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");

var ocrResult = ocrTesseract.Read(ocrInput);

// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");

// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);

Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");

$vbLabelText $csharpLabel

Le code ci-dessus illustre le flux de travail de base pour l'OCR d'une langue personnalisée. Pour des scénarios plus complexes, envisagez les améliorations suivantes :

Optimiser les performances : Pour les documents volumineux ou le traitement par lots, mettez en œuvre le multithreading et la prise en charge de l'asynchronisme pour améliorer les performances.

Prétraitement des images : si vos documents sources présentent des problèmes de qualité, appliquez des filtres de correction d'image avant le traitement OCR. L'Assistant de filtrage peut vous aider à trouver les paramètres de prétraitement optimaux.

OCR spécifique à la région : Pour les documents à contenu mixte, utilisez la technique OCR région d'une image pour vous concentrer sur des zones spécifiques contenant votre langue personnalisée.

Quels résultats puis-je attendre de l'OCR dans une langue spécifique?

Ce résultat affiche les données issues de notre modèle de langage personnalisé. En fournissant les bonnes données d'entraînement, IronOCR a réussi à déchiffrer le texte, et le résultat est en anglais clair. En outre, il s'agit de la sortie txt générée par le code.

La précision de l'OCR de langues personnalisées dépend de plusieurs facteurs :

Qualité des données de formation : de meilleures données de formation donnent de meilleurs résultats
Cohérence des documents : Les documents correspondant aux données de formation sont les plus performants
Résolution de l'image : les images à DPI élevé produisent des résultats plus précis - voir notre guide sur les paramètres DPI

Bonnes pratiques pour la mise en œuvre d'un langage personnalisé

Lors de la mise en œuvre de l'OCR de langues personnalisées dans des environnements de production, il convient de tenir compte des meilleures pratiques suivantes :

Gestion des erreurs et validation : Vérifiez toujours que votre fichier .traineddata existe et est accessible avant de tenter de le charger. Mettre en œuvre une gestion des erreurs appropriée pour les cas où le fichier de langue personnalisé pourrait être manquant ou corrompu.

Optimisation des performances : Les modèles linguistiques personnalisés peuvent être plus volumineux que les packs linguistiques standard. Pour des performances optimales :

Mettre en cache le modèle linguistique chargé lors du traitement de plusieurs documents
Utilisez le suivi de la progression pour surveiller les opérations d'OCR de longue durée
Pensez à mettre en place des timeouts pour le traitement des documents volumineux

Combinaison avec des langues standard : si vos documents contiennent à la fois des langues personnalisées et des langues standard, vous pouvez charger plusieurs langues simultanément. Ceci est particulièrement utile pour les documents à contenu mixte.

Test et validation : Établir un cadre de test pour valider la précision de l'OCR :

Créer un ensemble de données de test avec des résultats connus
Utilisez les mesures de confiance dans les résultats pour évaluer la qualité de la reconnaissance
Implémenter mettre en évidence des textes sous forme d'images pour le débogage visuel

Cas d'utilisation avancés

L'OCR de langues personnalisées offre de nombreuses possibilités :

Préservation de documents historiques : Numériser des manuscrits anciens ou des textes écrits dans des scripts obsolètes Systèmes de notation spécialisés : Traiter les équations mathématiques, la notation musicale ou les diagrammes techniques - voir notre guide de dépannage des équations Applications de sécurité : Décoder des systèmes d'encodage ou de chiffrement propriétaires Accessibilité : Convertir des systèmes d'écriture braille ou tactiles spécialisés en texte standard

Pour des scénarios plus avancés, explorez nos exemples de code complets présentant diverses capacités d'IronOcr avec Tesseract 5.

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant des langages ou des scripts personnalisés ?

IronOcr permet l'OCR de langues personnalisées en chargeant des fichiers .traineddata de Tesseract par le biais de la méthode UseCustomTesseractLanguageFile. Cela vous permet d'extraire du texte à partir de n'importe quel modèle linguistique entraîné, y compris des scripts spécialisés, des textes historiques ou des codes.

Quel format de fichier est nécessaire pour la reconnaissance linguistique personnalisée ?

IronOCR nécessite un fichier .traineddata contenant les données d'entraînement pour votre langue personnalisée. Ce fichier est chargé à l'aide de la méthode UseCustomTesseractLanguageFile et contient toutes les informations nécessaires pour que Tesseract reconnaisse les caractères uniques de votre langue personnalisée.

Puis-je utiliser plusieurs langues personnalisées dans une seule opération d'OCR ?

Oui, IronOCR prend en charge la reconnaissance de plusieurs langues. Vous pouvez charger plusieurs fichiers de langues personnalisées ou combiner des langues personnalisées avec l'une des 125 langues internationales prises en charge d'emblée par IronOCR.

Quels types de scripts personnalisés peuvent être reconnus ?

IronOCR peut reconnaître n'importe quel script personnalisé qui a été correctement formé dans un fichier .traineddata, y compris les scripts historiques, les langues inventées, les systèmes de notation spécialisés et les cryptogrammes. La flexibilité s'étend à tout système d'écriture pouvant être formé à l'aide des outils de Tesseract.

Comment mettre en œuvre l'OCR en langue personnalisée dans mon application C# ?

Pour mettre en œuvre l'OCR en langue personnalisée avec IronOCR : 1) Initialisez une instance IronTesseract, 2) Chargez votre fichier .traineddata personnalisé à l'aide de UseCustomTesseractLanguageFile, 3) Créez un objet OcrInput et chargez votre document, 4) Appelez la méthode Read() pour extraire le texte, et 5) Traitez le texte extrait selon les besoins.

Curtis Chau

Discutez maintenant avec l'équipe d'ingénierie

Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Prêt à commencer?

Nuget Téléchargements 5,556,263 | Version : 2026.3 vient de sortir

Voir Licences

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.

Voir Licences

Mise en avant du client :

Projecteur sur les Développeurs:

Webinaires:

Commencer un essai gratuit de 30 jours

Sur cette page

Comment utiliser un langage personnalisé avec Tesseract en C

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Comment utiliser des langues personnalisées avec Tesseract

Comment implémenter l'OCR d'une langue personnalisée avec Tesseract?

Quelles sont les données de formation dont j'ai besoin pour les langues personnalisées ?

Comment charger et traiter des documents en langue personnalisée?

Quels résultats puis-je attendre de l'OCR dans une langue spécifique?

Bonnes pratiques pour la mise en œuvre d'un langage personnalisé

Cas d'utilisation avancés

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant des langages ou des scripts personnalisés ?

Quel format de fichier est nécessaire pour la reconnaissance linguistique personnalisée ?

Puis-je utiliser plusieurs langues personnalisées dans une seule opération d'OCR ?

Quels types de scripts personnalisés peuvent être reconnus ?

Comment mettre en œuvre l'OCR en langue personnalisée dans mon application C# ?

Vous faites encore défiler ?

Équipe de soutien Iron

Commencer un essai gratuit de 30 jours

Sur cette page

Comment utiliser un langage personnalisé avec Tesseract en C

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Comment utiliser des langues personnalisées avec Tesseract

Comment implémenter l'OCR d'une langue personnalisée avec Tesseract?

Quelles sont les données de formation dont j'ai besoin pour les langues personnalisées ?

Comment charger et traiter des documents en langue personnalisée?

Quels résultats puis-je attendre de l'OCR dans une langue spécifique?

Bonnes pratiques pour la mise en œuvre d'un langage personnalisé

Cas d'utilisation avancés

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant des langages ou des scripts personnalisés ?

Quel format de fichier est nécessaire pour la reconnaissance linguistique personnalisée ?

Puis-je utiliser plusieurs langues personnalisées dans une seule opération d'OCR ?

Quels types de scripts personnalisés peuvent être reconnus ?

Comment mettre en œuvre l'OCR en langue personnalisée dans mon application C# ?

Vous faites encore défiler ?

Étape suivante : Commencer l'essai gratuit de 30 jours

Étape suivante : Commencer l'essai gratuit de 30 jours

De confiance par des millions d'ingénieurs dans le monde entier

Équipe de soutien Iron