Comment utiliser un langage personnalisé avec Tesseract en C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR permet la reconnaissance optique de caractères pour les langues personnalisées, les scripts spécialisés ou les cryptogrammes en chargeant les fichiers .traineddata de Tesseract via la méthode UseCustomTesseractLanguageFile, ce qui vous permet d'extraire du texte à partir de n'importe quel modèle de langue formé de manière personnalisée.

Quickstart : Load Custom Language for OCR

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronOCR avec le gestionnaire de packages NuGet

    PM > Install-Package IronOcr

  2. Copiez et exécutez cet extrait de code.

    using IronOcr;
    
    // Initialize OCR engine
    var ocr = new IronTesseract();
    
    // Load custom language file
    ocr.UseCustomTesseractLanguageFile("custom.traineddata");
    
    // Process document
    using var input = new OcrInput();
    input.LoadImage("document.png");
    
    // Extract text
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronOCR dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer
  1. Installer IronOCR via le gestionnaire de paquets NuGet
  2. Chargez votre fichier .traineddata personnalisé avec UseCustomTesseractLanguageFile
  3. Créez un OcrInput et chargez votre document
  4. Appelez Read() pour extraire du texte dans votre langue personnalisée
  5. Enregistrer ou traiter le texte extrait

<TODO : Ajouter une image ici -->

<Description : Capture d'écran ou diagramme -->

La reconnaissance optique de caractères (OCR) nécessite parfois la manipulation de langages personnalisés, de scripts spécialisés ou de codes chiffrés. Pour lire une image d'entrée contenant une langue personnalisée, le moteur Tesseract doit recevoir des données d'entraînement pour cette langue spécifique. Ces données sont stockées dans un fichier spécial .traineddata .

Bien que le processus complexe de création (entraînement) de ce fichier soit réalisé à l'aide des propres outils de Tesseract, IronOCR prend entièrement en charge l'utilisation de ces fichiers de langue personnalisés. Cela vous permet d'appliquer votre modèle entraîné pour déchiffrer et lire du texte à partir de n'importe quelle entrée. Ce guide montre comment charger et utiliser un fichier .traineddata personnalisé avec IronOcr.

Commencez avec IronOCR

Commencez à utiliser IronOCR dans votre projet aujourd'hui avec un essai gratuit.

Première étape :
green arrow pointer


Comment implémenter l'OCR d'une langue personnalisée avec Tesseract?

<TODO : Ajouter une image ici -->

<Description : Diagramme ou capture d'écran illustrant le concept de code -->

Pour utiliser un langage personnalisé avec Tesseract, chargez d'abord votre fichier .traineddata en appelant la méthode UseCustomTesseractLanguageFile. Il s'agit d'une étape essentielle, car ce fichier contient toutes les données d'entraînement qui permettent à Tesseract de reconnaître les caractères uniques de la langue personnalisée.

La prise en charge des langues personnalisées dans IronOCR va au-delà des langues standard. Que vous travailliez avec des scripts historiques, des langues inventées ou des systèmes de notation spécialisés, le même processus s'applique. Pour les projets nécessitant plusieurs langues, consultez notre guide sur la lecture de plusieurs langues ou découvrez les 125 langues internationales d'OCR prises en charge dès le départ.

Ensuite, chargez votre document d'entrée comme vous le feriez pour une opération d'OCR classique. Nous chargeons un PDF contenant des paragraphes dans une langue personnalisée à l'aide de LoadPdf. IronOCR prend en charge différents formats d'entrée, notamment images (jpg, png, gif, tiff, bmp) et PDFs.

Enfin, utilisez la méthode Read pour extraire le texte de l'entrée. Le résultat peut ensuite être imprimé sur la console ou enregistré dans un fichier texte pour référence.

Quelles sont les données de formation dont j'ai besoin pour les langues personnalisées ? Nous utiliserons comme entrée cet exemple de PDF, qui contient du texte dans notre langue personnalisée. Nous utiliserons ce [fichier `.traindata` de langage personnalisé](/static-assets/ocr/how-to/ocr-custom-language/AMGDT.traineddata) pour notre exemple. La qualité et l'exhaustivité de vos données de formation ont un impact direct sur la précision de l'OCR. Lors de la préparation des données de formation linguistique personnalisée : 1. **Couverture des caractères** : assurez-vous que vos données de formation comprennent tous les caractères et symboles 2. **Variations de polices** : Incluez plusieurs styles de polices si vos documents présentent des variations typographiques 3. **Qualité des images** : Entraînez-vous avec des images similaires à celles que vous traiterez en production 4. **Context Patterns** : Inclure des combinaisons de mots et des phrases courantes Pour les options de configuration avancées, consultez notre [Guide de configuration détaillé de Tesseract](https://ironsoftware.com/csharp/ocr/examples/csharp-configure-setup-tesseract/). ### Comment charger et traiter des documents en langue personnalisée? ```csharp :path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs ``` Le code ci-dessus illustre le flux de travail de base pour l'OCR d'une langue personnalisée. Pour des scénarios plus complexes, envisagez les améliorations suivantes : **Optimiser les performances** : Pour les documents volumineux ou le traitement par lots, mettez en œuvre [le multithreading et la prise en charge de l'asynchronisme](https://ironsoftware.com/csharp/ocr/how-to/async/) pour améliorer les performances. **Prétraitement des images** : si vos documents sources présentent des problèmes de qualité, appliquez des [filtres de correction d'image](https://ironsoftware.com/csharp/ocr/how-to/image-quality-correction/) avant le traitement OCR. L'[Assistant de filtrage](https://ironsoftware.com/csharp/ocr/how-to/filter-wizard/) peut vous aider à trouver les paramètres de prétraitement optimaux. **OCR spécifique à la région** : Pour les documents à contenu mixte, utilisez la technique [OCR région d'une image](https://ironsoftware.com/csharp/ocr/how-to/ocr-region-of-an-image/) pour vous concentrer sur des zones spécifiques contenant votre langue personnalisée. ### Quels résultats puis-je attendre de l'OCR dans une langue spécifique?
Sortie OCR Tesseract montrant le texte extrait sur les fonctionnalités du jeu Apex Legends dans l'interface du terminal
Ce résultat affiche les données issues de notre modèle de langage personnalisé. En fournissant les bonnes données d'entraînement, IronOCR a réussi à déchiffrer le texte, et le résultat est en anglais clair. En outre, il s'agit de la sortie [txt](/static-assets/ocr/how-to/ocr_custom-language/ocr_output.txt) générée par le code. La précision de l'OCR de langues personnalisées dépend de plusieurs facteurs : - **Qualité des données de formation** : de meilleures données de formation donnent de meilleurs résultats - : Les documents correspondant aux données de formation sont les plus performants - **Résolution de l'image** : les images à DPI élevé produisent des résultats plus précis - voir notre guide sur [les paramètres DPI](https://ironsoftware.com/csharp/ocr/how-to/dpi-setting/) ### Bonnes pratiques pour la mise en œuvre d'un langage personnalisé Lors de la mise en œuvre de l'OCR de langues personnalisées dans des environnements de production, il convient de tenir compte des meilleures pratiques suivantes : **Gestion des erreurs et validation** : Vérifiez toujours que votre fichier `.traineddata` existe et qu'il est accessible avant de tenter de le charger. Mettre en œuvre une gestion des erreurs appropriée pour les cas où le fichier de langue personnalisé pourrait être manquant ou corrompu. **Optimisation des performances** : Les modèles linguistiques personnalisés peuvent être plus volumineux que les packs linguistiques standard. Pour des performances optimales : - Mettre en cache le modèle linguistique chargé lors du traitement de plusieurs documents - Utilisez [le suivi de la progression](https://ironsoftware.com/csharp/ocr/how-to/progress-tracking/) pour surveiller les opérations d'OCR de longue durée - Pensez à mettre en place des [timeouts](https://ironsoftware.com/csharp/ocr/examples/timeouts/) pour le traitement des documents volumineux : si vos documents contiennent à la fois des langues personnalisées et des langues standard, vous pouvez charger plusieurs langues simultanément. Ceci est particulièrement utile pour les documents à contenu mixte. **Test et validation** : Établir un cadre de test pour valider la précision de l'OCR : - Créer un ensemble de données de test avec des résultats connus - Utilisez les mesures de [confiance dans les résultats](https://ironsoftware.com/csharp/ocr/how-to/tesseract-result-confidence/) pour évaluer la qualité de la reconnaissance - Implémenter [mettre en évidence des textes sous forme d'images](https://ironsoftware.com/csharp/ocr/how-to/highlight-texts-as-images/) pour le débogage visuel ### Cas d'utilisation avancés L'OCR de langues personnalisées offre de nombreuses possibilités : **Préservation de documents historiques** : Numériser des manuscrits anciens ou des textes écrits dans des scripts obsolètes **Systèmes de notation spécialisés** : Traiter les équations mathématiques, la notation musicale ou les diagrammes techniques - voir notre [guide de dépannage des équations](https://ironsoftware.com/csharp/ocr/troubleshooting/equations/) **Applications de sécurité** : Décoder des systèmes d'encodage ou de chiffrement propriétaires **Accessibilité** : Convertir des systèmes d'écriture braille ou tactiles spécialisés en texte standard Pour des scénarios plus avancés, explorez nos [exemples de code](https://ironsoftware.com/csharp/ocr/examples/csharp-tesseract-5/) complets présentant diverses capacités d'IronOcr avec Tesseract 5.

Questions Fréquemment Posées

Comment puis-je effectuer l'OCR sur des documents contenant des langages ou des scripts personnalisés ?

IronOcr permet l'OCR de langues personnalisées en chargeant des fichiers .traineddata de Tesseract par le biais de la méthode UseCustomTesseractLanguageFile. Cela vous permet d'extraire du texte à partir de n'importe quel modèle linguistique entraîné, y compris des scripts spécialisés, des textes historiques ou des codes.

Quel format de fichier est nécessaire pour la reconnaissance linguistique personnalisée ?

IronOCR nécessite un fichier .traineddata contenant les données d'entraînement pour votre langue personnalisée. Ce fichier est chargé à l'aide de la méthode UseCustomTesseractLanguageFile et contient toutes les informations nécessaires pour que Tesseract reconnaisse les caractères uniques de votre langue personnalisée.

Puis-je utiliser plusieurs langues personnalisées dans une seule opération d'OCR ?

Oui, IronOCR prend en charge la reconnaissance de plusieurs langues. Vous pouvez charger plusieurs fichiers de langues personnalisées ou combiner des langues personnalisées avec l'une des 125 langues internationales prises en charge d'emblée par IronOCR.

Quels types de scripts personnalisés peuvent être reconnus ?

IronOCR peut reconnaître n'importe quel script personnalisé qui a été correctement formé dans un fichier .traineddata, y compris les scripts historiques, les langues inventées, les systèmes de notation spécialisés et les cryptogrammes. La flexibilité s'étend à tout système d'écriture pouvant être formé à l'aide des outils de Tesseract.

Comment mettre en œuvre l'OCR en langue personnalisée dans mon application C# ?

Pour mettre en œuvre l'OCR en langue personnalisée avec IronOCR : 1) Initialisez une instance IronTesseract, 2) Chargez votre fichier .traineddata personnalisé à l'aide de UseCustomTesseractLanguageFile, 3) Créez un objet OcrInput et chargez votre document, 4) Appelez la méthode Read() pour extraire le texte, et 5) Traitez le texte extrait selon les besoins.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 5,246,844 | Version : 2025.12 vient de sortir