Comment utiliser un langage personnalisé avec Tesseract en C

Mis à jour:7 mai 2026

Translated

View the article in English

IronOCR permet l'OCR pour les langues personnalisées, les scripts spécialisés ou les chiffres en chargeant les fichiers Tesseract .traineddata grâce à la méthode UseCustomTesseractLanguageFile, vous permettant d'extraire du texte à partir de n'importe quel modèle de langue entraîné de manière personnalisée.

Quickstart : Charger une langue personnalisée pour OCR

Installez IronOCR avec le Gestionnaire de Packages NuGet
PM > Install-Package IronOcr

Copiez et exécutez cet extrait de code.

using IronOcr;

// Initialize OCR engine
var ocr = new IronTesseract();

// Load custom language file
ocr.UseCustomTesseractLanguageFile("custom.traineddata");

// Process document
using var input = new OcrInput();
input.LoadImage("document.png");

// Extract text
var result = ocr.Read(input);
Console.WriteLine(result.Text);

Déployez pour tester sur votre environnement de production.

Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit

Installez IronOcr via le gestionnaire de packages NuGet
Chargez votre fichier .traineddata personnalisé avec UseCustomTesseractLanguageFile
Créez un OcrInput et chargez votre document
Appelez la méthode Read() pour extraire du texte dans votre langue personnalisée
Sauvegardez ou traitez le texte extrait

La reconnaissance optique de caractères (OCR) nécessite parfois la manipulation de langages personnalisés, de scripts spécialisés ou de codes chiffrés. Pour lire une image d'entrée contenant une langue personnalisée, le moteur Tesseract doit recevoir des données d'entraînement pour cette langue spécifique. Ces données sont stockées dans un fichier spécial .traineddata.

Bien que le processus complexe de création (entraînement) de ce fichier soit réalisé à l'aide des propres outils de Tesseract, IronOCR prend entièrement en charge l'utilisation de ces fichiers de langue personnalisés. Cela vous permet d'appliquer votre modèle entraîné pour déchiffrer et lire du texte à partir de n'importe quelle entrée. Ce guide démontre comment charger et utiliser un fichier .traineddata personnalisé avec IronOCR.

Comment utiliser des langues personnalisées avec Tesseract

Téléchargez une bibliothèque C# pour la lecture d'un langage personnalisé.
Initialisez le moteur OCR
Chargez les données d'entraînement linguistique personnalisées avec UseCustomTesseractLanguageFile
Chargez l'image d'entrée avec LoadImage
Lisez et extrayez l'image d'entrée de la langue personnalisée avec Read

Comment implémenter l'OCR d'une langue personnalisée avec Tesseract?

Pour utiliser une langue personnalisée avec Tesseract, chargez d'abord votre fichier .traineddata en appelant la méthode UseCustomTesseractLanguageFile. Il s'agit d'une étape essentielle, car ce fichier contient toutes les données d'entraînement qui permettent à Tesseract de reconnaître les caractères uniques de la langue personnalisée.

La prise en charge des langues personnalisées dans IronOCR va au-delà des langues standard. Que vous travailliez avec des scripts historiques, des langues inventées ou des systèmes de notation spécialisés, le même processus s'applique. Pour les projets nécessitant plusieurs langues, consultez notre guide sur la lecture de plusieurs langues ou découvrez les 125 langues internationales d'OCR prises en charge dès le départ.

Ensuite, chargez votre document d'entrée comme vous le feriez pour une opération d'OCR classique. Nous chargeons un PDF contenant des paragraphes en langue personnalisée à l'aide de LoadPdf. IronOCR prend en charge différents formats d'entrée, notamment images (jpg, png, gif, tiff, bmp) et PDFs.

Enfin, utilisez la méthode Read pour extraire le texte de l'entrée. Le résultat peut ensuite être imprimé sur la console ou enregistré dans un fichier texte pour référence.

Quelles sont les données de formation dont j'ai besoin pour les langues personnalisées ?

Nous utiliserons comme entrée cet exemple de PDF, qui contient du texte dans notre langue personnalisée.

Nous utiliserons ce .traindata de langue personnalisée pour notre exemple.

La qualité et l'exhaustivité de vos données d'entraînement impactent directement la précision de l'OCR. Lors de la préparation des données de formation linguistique personnalisée :

Couverture des caractères : Assurez-vous que vos données d'entraînement incluent tous les caractères et symboles
Variations de police : Incluez plusieurs styles de police si vos documents varient en typographie
Qualité de l'image : Entraînez-vous avec des images similaires à celles que vous traiterez en production
Schémas de contexte : Incluez des combinaisons de mots et des phrases courantes

Pour les options de configuration avancées, consultez notre Guide de configuration détaillé de Tesseract.

Comment charger et traiter des documents en langue personnalisée?

:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs

using IronOcr;
using System;
using System.IO;

var ocrTesseract = new IronTesseract();

// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");

using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");

var ocrResult = ocrTesseract.Read(ocrInput);

// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");

// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);

Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");

Imports IronOcr
Imports System
Imports System.IO

Dim ocrTesseract As New IronTesseract()

' Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata")

Using ocrInput As New OcrInput()
    ' Load the PDF containing text in the custom language
    ocrInput.LoadPdf("custom.pdf")

    Dim ocrResult = ocrTesseract.Read(ocrInput)

    ' Print text to the console
    Console.WriteLine("--- OCR Result ---")
    Console.WriteLine(ocrResult.Text)
    Console.WriteLine("------------------")

    ' Pipe text to a .txt file
    Dim outputFilePath As String = "ocr_output.txt"
    File.WriteAllText(outputFilePath, ocrResult.Text)

    Console.WriteLine(vbCrLf & "Successfully saved text to " & outputFilePath)
End Using

$vbLabelText $csharpLabel

Le code ci-dessus illustre le flux de travail de base pour l'OCR d'une langue personnalisée. Pour des scénarios plus complexes, envisagez les améliorations suivantes :

Optimiser les performances : Pour les documents volumineux ou le traitement par lots, mettez en œuvre le multithreading et la prise en charge de l'asynchronisme pour améliorer les performances.

Prétraitement des images : si vos documents sources présentent des problèmes de qualité, appliquez des filtres de correction d'image avant le traitement OCR. L'Assistant de filtrage peut vous aider à trouver les paramètres de prétraitement optimaux.

OCR spécifique à la région : Pour les documents à contenu mixte, utilisez la technique OCR région d'une image pour vous concentrer sur des zones spécifiques contenant votre langue personnalisée.

Quels résultats puis-je attendre de l'OCR dans une langue spécifique?

Ce résultat affiche les données issues de notre modèle de langage personnalisé. En fournissant les bonnes données d'entraînement, IronOCR a réussi à déchiffrer le texte, et le résultat est en anglais clair. En outre, il s'agit de la sortie txt générée par le code.

La précision de l'OCR de langues personnalisées dépend de plusieurs facteurs :

Qualité des données d'entraînement : De meilleures données d'entraînement donnent de meilleurs résultats
Cohérence des documents : Les documents correspondant aux données d'entraînement donnent les meilleures performances
Résolution de l'image : les images à DPI élevé produisent des résultats plus précis - voir notre guide sur les paramètres DPI

Bonnes pratiques pour la mise en œuvre d'un langage personnalisé

Lors de la mise en œuvre de l'OCR de langues personnalisées dans des environnements de production, il convient de tenir compte des meilleures pratiques suivantes :

Gestion des erreurs et validation : Validez toujours que votre fichier .traineddata existe et est accessible avant de tenter de le charger. Mettre en œuvre une gestion des erreurs appropriée pour les cas où le fichier de langue personnalisé pourrait être manquant ou corrompu.

Optimisation des performances : Les modèles linguistiques personnalisés peuvent être plus volumineux que les packs linguistiques standard. Pour des performances optimales :

Mettez en cache le modèle de langue chargé lors du traitement de plusieurs documents
Utilisez le suivi de progression pour surveiller les opérations OCR de longue durée
Envisagez d'implémenter des delais pour le traitement de documents volumineux

Combinaison avec des langues standard : si vos documents contiennent à la fois des langues personnalisées et des langues standard, vous pouvez charger plusieurs langues simultanément. Ceci est particulièrement utile pour les documents à contenu mixte.

Test et validation : Établir un cadre de test pour valider la précision de l'OCR :

Créez un ensemble de données de test avec des résultats connus
Utilisez les mesures de confiance des résultats pour évaluer la qualité de la reconnaissance
Implémenter mettre en évidence des textes sous forme d'images pour le débogage visuel

Cas d'utilisation avancés

L'OCR de langues personnalisées offre de nombreuses possibilités :

Préservation de documents historiques : Numériser des manuscrits anciens ou des textes écrits dans des scripts obsolètes Systèmes de notation spécialisés : Traiter les équations mathématiques, la notation musicale ou les diagrammes techniques - voir notre guide de dépannage des équations Applications de sécurité : Décoder des systèmes d'encodage ou de chiffrement propriétaires Accessibilité : Convertir des systèmes d'écriture braille ou tactiles spécialisés en texte standard

Pour des scénarios plus avancés, explorez nos exemples de code complets présentant diverses capacités d'IronOcr avec Tesseract 5.

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant des langages ou des scripts personnalisés ?

IronOcr permet l'OCR de langues personnalisées en chargeant des fichiers .traineddata de Tesseract par le biais de la méthode UseCustomTesseractLanguageFile. Cela vous permet d'extraire du texte à partir de n'importe quel modèle linguistique entraîné, y compris des scripts spécialisés, des textes historiques ou des codes.

Quel format de fichier est nécessaire pour la reconnaissance linguistique personnalisée ?

IronOCR nécessite un fichier .traineddata contenant les données d'entraînement pour votre langue personnalisée. Ce fichier est chargé à l'aide de la méthode UseCustomTesseractLanguageFile et contient toutes les informations nécessaires pour que Tesseract reconnaisse les caractères uniques de votre langue personnalisée.

Puis-je utiliser plusieurs langues personnalisées dans une seule opération d'OCR ?

Oui, IronOCR prend en charge la reconnaissance de plusieurs langues. Vous pouvez charger plusieurs fichiers de langues personnalisées ou combiner des langues personnalisées avec l'une des 125 langues internationales prises en charge d'emblée par IronOCR.

Quels types de scripts personnalisés peuvent être reconnus ?

IronOCR peut reconnaître n'importe quel script personnalisé qui a été correctement formé dans un fichier .traineddata, y compris les scripts historiques, les langues inventées, les systèmes de notation spécialisés et les cryptogrammes. La flexibilité s'étend à tout système d'écriture pouvant être formé à l'aide des outils de Tesseract.

Comment mettre en œuvre l'OCR en langue personnalisée dans mon application C# ?

Pour mettre en œuvre l'OCR en langue personnalisée avec IronOCR : 1) Initialisez une instance IronTesseract, 2) Chargez votre fichier .traineddata personnalisé à l'aide de UseCustomTesseractLanguageFile, 3) Créez un objet OcrInput et chargez votre document, 4) Appelez la méthode Read() pour extraire le texte, et 5) Traitez le texte extrait selon les besoins.

IronOCR prend-elle en charge plusieurs langues ?

IronOCR prend en charge plusieurs langues, ce qui en fait un outil polyvalent pour des applications globales nécessitant la reconnaissance de texte dans différentes langues.

IronOCR peut-il être intégré dans des applications existantes ?

IronOCR est conçu pour être facilement intégré dans les applications existantes en utilisant C#, permettant aux développeurs d'ajouter des fonctionnalités OCR à leur logiciel avec un minimum d'effort.

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Utiliser IronOCR pour la gestion des documents rationalise le flux de travail en convertissant les documents numérisés en texte modifiable et consultable, réduisant le besoin de saisie manuelle des données et améliorant l'accessibilité des documents.

Comment IronOCR peut-il améliorer la précision des données ?

IronOCR améliore la précision des données grâce à ses algorithmes de reconnaissance avancés et ses fonctionnalités de correction d'image, garantissant que le processus d'extraction de texte est à la fois fiable et précis.

Y a-t-il un essai gratuit disponible pour IronOCR ?

Oui, Iron Software propose un essai gratuit d'IronOCR, permettant aux utilisateurs de tester ses fonctionnalités et capacités avant de prendre une décision d'achat.

Curtis Chau

Discutez maintenant avec l'équipe d'ingénierie

Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Prêt à commencer?

Nuget Téléchargements 6,151,372 | Version : 2026.7 vient de sortir

Voir Licences

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.

Voir Licences

Mise en avant du client :

Projecteur sur les Développeurs:

Webinaires:

Commencer un essai gratuit de 30 jours

Sur cette page

Comment utiliser un langage personnalisé avec Tesseract en C

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Comment utiliser des langues personnalisées avec Tesseract

Comment implémenter l'OCR d'une langue personnalisée avec Tesseract?

Quelles sont les données de formation dont j'ai besoin pour les langues personnalisées ?

Comment charger et traiter des documents en langue personnalisée?

Quels résultats puis-je attendre de l'OCR dans une langue spécifique?

Bonnes pratiques pour la mise en œuvre d'un langage personnalisé

Cas d'utilisation avancés

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant des langages ou des scripts personnalisés ?

Quel format de fichier est nécessaire pour la reconnaissance linguistique personnalisée ?

Puis-je utiliser plusieurs langues personnalisées dans une seule opération d'OCR ?

Quels types de scripts personnalisés peuvent être reconnus ?

Comment mettre en œuvre l'OCR en langue personnalisée dans mon application C# ?

IronOCR prend-elle en charge plusieurs langues ?

IronOCR peut-il être intégré dans des applications existantes ?

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Comment IronOCR peut-il améliorer la précision des données ?

Y a-t-il un essai gratuit disponible pour IronOCR ?

Vous faites encore défiler ?

Votre clé de licence a été livrée dans votre boîte de réception

Votre demande de démo est en cours.

Équipe de soutien Iron

Commencer un essai gratuit de 30 jours

Sur cette page

Comment utiliser un langage personnalisé avec Tesseract en C

Installez IronOCR avec le Gestionnaire de Packages NuGet

Copiez et exécutez cet extrait de code.

Déployez pour tester sur votre environnement de production.

Comment utiliser des langues personnalisées avec Tesseract

Comment implémenter l'OCR d'une langue personnalisée avec Tesseract?

Quelles sont les données de formation dont j'ai besoin pour les langues personnalisées ?

Comment charger et traiter des documents en langue personnalisée?

Quels résultats puis-je attendre de l'OCR dans une langue spécifique?

Bonnes pratiques pour la mise en œuvre d'un langage personnalisé

Cas d'utilisation avancés

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant des langages ou des scripts personnalisés ?

Quel format de fichier est nécessaire pour la reconnaissance linguistique personnalisée ?

Puis-je utiliser plusieurs langues personnalisées dans une seule opération d'OCR ?

Quels types de scripts personnalisés peuvent être reconnus ?

Comment mettre en œuvre l'OCR en langue personnalisée dans mon application C# ?

IronOCR prend-elle en charge plusieurs langues ?

IronOCR peut-il être intégré dans des applications existantes ?

Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?

Comment IronOCR peut-il améliorer la précision des données ?

Y a-t-il un essai gratuit disponible pour IronOCR ?

Vous faites encore défiler ?

Étape suivante : Commencer l'essai gratuit de 30 jours

Thank You

Étape suivante : Commencer l'essai gratuit de 30 jours

Vous souhaitez déployer IronSuite GRATUITEMENT sur un projet en production ?

Qu'est-ce qui est inclus ?

Votre clé de licence a été livrée dans votre boîte de réception

Votre demande de démo est en cours.

De confiance par des millions d'ingénieurs dans le monde entier

Équipe de soutien Iron