Comment utiliser un langage personnalisé avec Tesseract en C
IronOCR permet l'OCR pour des langues personnalisées, des scripts spécialisés ou des codes chiffrés en chargeant des fichiers Tesseract .traineddata via la méthode UseCustomTesseractLanguageFile, ce qui vous permet d'extraire du texte à partir de n'importe quel modèle linguistique entraîné sur mesure.
Quickstart : Charger une langue personnalisée pour OCR
-
Installez IronOCR avec le Gestionnaire de Packages NuGet
PM > Install-Package IronOcr -
Copiez et exécutez cet extrait de code.
using IronOcr; // Initialize OCR engine var ocr = new IronTesseract(); // Load custom language file ocr.UseCustomTesseractLanguageFile("custom.traineddata"); // Process document using var input = new OcrInput(); input.LoadImage("document.png"); // Extract text var result = ocr.Read(input); Console.WriteLine(result.Text); -
Déployez pour tester sur votre environnement de production.
Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit
- Installez
IronOcrvia le Package Manager NuGet - Chargez votre fichier
.traineddatapersonnalisé avecUseCustomTesseractLanguageFile - Créez un
OcrInputet chargez votre document - Appelez
Read()pour extraire du texte dans votre langue personnalisée - Sauvegardez ou traitez le texte extrait
La reconnaissance optique de caractères (OCR) nécessite parfois la manipulation de langages personnalisés, de scripts spécialisés ou de codes chiffrés. Pour lire une image d'entrée contenant une langue personnalisée, le moteur Tesseract doit recevoir des données d'entraînement pour cette langue spécifique. Ces données sont stockées dans un fichier spécial .traineddata.
Bien que le processus complexe de création (entraînement) de ce fichier soit réalisé à l'aide des propres outils de Tesseract, IronOCR prend entièrement en charge l'utilisation de ces fichiers de langue personnalisés. Cela vous permet d'appliquer votre modèle entraîné pour déchiffrer et lire du texte à partir de n'importe quelle entrée. Ce guide explique comment charger et utiliser un fichier .traineddata personnalisé avec IronOCR.
Comment utiliser des langues personnalisées avec Tesseract
- Téléchargez une bibliothèque C# pour la lecture d'un langage personnalisé.
- Initialisez le moteur OCR
- Chargez les données d'entraînement linguistique personnalisées avec
UseCustomTesseractLanguageFile - Chargez l'image d'entrée avec
LoadImage - Lisez et extrayez l'image d'entrée de la langue personnalisée avec
Read
Comment implémenter l'OCR d'une langue personnalisée avec Tesseract?
Pour utiliser une langue personnalisée avec Tesseract, chargez d'abord votre fichier .traineddata en appelant la méthode UseCustomTesseractLanguageFile. Il s'agit d'une étape essentielle, car ce fichier contient toutes les données d'entraînement qui permettent à Tesseract de reconnaître les caractères uniques de la langue personnalisée.
La prise en charge des langues personnalisées dans IronOCR va au-delà des langues standard. Que vous travailliez avec des scripts historiques, des langues inventées ou des systèmes de notation spécialisés, le même processus s'applique. Pour les projets nécessitant plusieurs langues, consultez notre guide sur la lecture de plusieurs langues ou découvrez les 125 langues internationales d'OCR prises en charge dès le départ.
Ensuite, chargez votre document d'entrée comme vous le feriez pour une opération d'OCR classique. Nous chargeons un PDF contenant des paragraphes de langue personnalisée à l'aide de LoadPdf. IronOCR prend en charge différents formats d'entrée, notamment images (jpg, png, gif, tiff, bmp) et PDFs.
Enfin, utilisez la méthode Read pour extraire le texte de l'entrée. Le résultat peut ensuite être imprimé sur la console ou enregistré dans un fichier texte pour référence.
Quelles sont les données de formation dont j'ai besoin pour les langues personnalisées ?
Nous utiliserons comme entrée cet exemple de PDF, qui contient du texte dans notre langue personnalisée.
Nous utiliserons ce langage personnalisé .traindata pour notre exemple.
La qualité et l'exhaustivité de vos données d'entraînement impactent directement la précision de l'OCR. Lors de la préparation des données de formation linguistique personnalisée :
- Couverture des caractères : Assurez-vous que vos données d'entraînement incluent tous les caractères et symboles
- Variations de police : Incluez plusieurs styles de police si vos documents varient en typographie
- Qualité de l'image : Entraînez-vous avec des images similaires à celles que vous traiterez en production
- Schémas de contexte : Incluez des combinaisons de mots et des phrases courantes
Pour les options de configuration avancées, consultez notre Guide de configuration détaillé de Tesseract.
Comment charger et traiter des documents en langue personnalisée?
:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs
using IronOcr;
using System;
using System.IO;
var ocrTesseract = new IronTesseract();
// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");
using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");
var ocrResult = ocrTesseract.Read(ocrInput);
// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");
// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);
Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");
Imports IronOcr
Imports System
Imports System.IO
Dim ocrTesseract As New IronTesseract()
' Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata")
Using ocrInput As New OcrInput()
' Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf")
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Print text to the console
Console.WriteLine("--- OCR Result ---")
Console.WriteLine(ocrResult.Text)
Console.WriteLine("------------------")
' Pipe text to a .txt file
Dim outputFilePath As String = "ocr_output.txt"
File.WriteAllText(outputFilePath, ocrResult.Text)
Console.WriteLine(vbCrLf & "Successfully saved text to " & outputFilePath)
End Using
Le code ci-dessus illustre le flux de travail de base pour l'OCR d'une langue personnalisée. Pour des scénarios plus complexes, envisagez les améliorations suivantes :
Optimiser les performances : Pour les documents volumineux ou le traitement par lots, mettez en œuvre le multithreading et la prise en charge de l'asynchronisme pour améliorer les performances.
Prétraitement des images : si vos documents sources présentent des problèmes de qualité, appliquez des filtres de correction d'image avant le traitement OCR. L'Assistant de filtrage peut vous aider à trouver les paramètres de prétraitement optimaux.
OCR spécifique à la région : Pour les documents à contenu mixte, utilisez la technique OCR région d'une image pour vous concentrer sur des zones spécifiques contenant votre langue personnalisée.
Quels résultats puis-je attendre de l'OCR dans une langue spécifique?
Ce résultat affiche les données issues de notre modèle de langage personnalisé. En fournissant les bonnes données d'entraînement, IronOCR a réussi à déchiffrer le texte, et le résultat est en anglais clair. En outre, il s'agit de la sortie txt générée par le code.
La précision de l'OCR de langues personnalisées dépend de plusieurs facteurs :
- Qualité des données d'entraînement : De meilleures données d'entraînement donnent de meilleurs résultats
- Cohérence des documents : Les documents correspondant aux données d'entraînement donnent les meilleures performances
- Résolution de l'image : les images à DPI élevé produisent des résultats plus précis - voir notre guide sur les paramètres DPI
Bonnes pratiques pour la mise en œuvre d'un langage personnalisé
Lors de la mise en œuvre de l'OCR de langues personnalisées dans des environnements de production, il convient de tenir compte des meilleures pratiques suivantes :
Gestion des erreurs et validation : Vérifiez toujours que votre fichier .traineddata existe et est accessible avant de tenter de le charger. Mettre en œuvre une gestion des erreurs appropriée pour les cas où le fichier de langue personnalisé pourrait être manquant ou corrompu.
Optimisation des performances : Les modèles linguistiques personnalisés peuvent être plus volumineux que les packs linguistiques standard. Pour des performances optimales :
- Mettez en cache le modèle de langue chargé lors du traitement de plusieurs documents
- Utilisez le suivi de progression pour surveiller les opérations OCR de longue durée
- Envisagez d'implémenter des delais pour le traitement de documents volumineux
<Combinaison avec des langues standard : si vos documents contiennent à la fois des langues personnalisées et des langues standard, vous pouvez charger plusieurs langues simultanément. Ceci est particulièrement utile pour les documents à contenu mixte.
Test et validation : Établir un cadre de test pour valider la précision de l'OCR :
- Créez un ensemble de données de test avec des résultats connus
- Utilisez les mesures de confiance des résultats pour évaluer la qualité de la reconnaissance
- Implémenter mettre en évidence des textes sous forme d'images pour le débogage visuel
Cas d'utilisation avancés
L'OCR de langues personnalisées offre de nombreuses possibilités :
Préservation de documents historiques : Numériser des manuscrits anciens ou des textes écrits dans des scripts obsolètes Systèmes de notation spécialisés : Traiter les équations mathématiques, la notation musicale ou les diagrammes techniques - voir notre guide de dépannage des équations Applications de sécurité : Décoder des systèmes d'encodage ou de chiffrement propriétaires Accessibilité : Convertir des systèmes d'écriture braille ou tactiles spécialisés en texte standard
Pour des scénarios plus avancés, explorez nos exemples de code complets présentant diverses capacités d'IronOcr avec Tesseract 5.
Questions Fréquemment Posées
Comment puis-je effectuer l'OCR sur des documents contenant des langages ou des scripts personnalisés ?
IronOcr permet l'OCR de langues personnalisées en chargeant des fichiers .traineddata de Tesseract par le biais de la méthode UseCustomTesseractLanguageFile. Cela vous permet d'extraire du texte à partir de n'importe quel modèle linguistique entraîné, y compris des scripts spécialisés, des textes historiques ou des codes.
Quel format de fichier est nécessaire pour la reconnaissance linguistique personnalisée ?
IronOCR nécessite un fichier .traineddata contenant les données d'entraînement pour votre langue personnalisée. Ce fichier est chargé à l'aide de la méthode UseCustomTesseractLanguageFile et contient toutes les informations nécessaires pour que Tesseract reconnaisse les caractères uniques de votre langue personnalisée.
Puis-je utiliser plusieurs langues personnalisées dans une seule opération d'OCR ?
Oui, IronOCR prend en charge la reconnaissance de plusieurs langues. Vous pouvez charger plusieurs fichiers de langues personnalisées ou combiner des langues personnalisées avec l'une des 125 langues internationales prises en charge d'emblée par IronOCR.
Quels types de scripts personnalisés peuvent être reconnus ?
IronOCR peut reconnaître n'importe quel script personnalisé qui a été correctement formé dans un fichier .traineddata, y compris les scripts historiques, les langues inventées, les systèmes de notation spécialisés et les cryptogrammes. La flexibilité s'étend à tout système d'écriture pouvant être formé à l'aide des outils de Tesseract.
Comment mettre en œuvre l'OCR en langue personnalisée dans mon application C# ?
Pour mettre en œuvre l'OCR en langue personnalisée avec IronOCR : 1) Initialisez une instance IronTesseract, 2) Chargez votre fichier .traineddata personnalisé à l'aide de UseCustomTesseractLanguageFile, 3) Créez un objet OcrInput et chargez votre document, 4) Appelez la méthode Read() pour extraire le texte, et 5) Traitez le texte extrait selon les besoins.
IronOCR prend-elle en charge plusieurs langues ?
IronOCR prend en charge plusieurs langues, ce qui en fait un outil polyvalent pour des applications globales nécessitant la reconnaissance de texte dans différentes langues.
IronOCR peut-il être intégré dans des applications existantes ?
IronOCR est conçu pour être facilement intégré dans les applications existantes en utilisant C#, permettant aux développeurs d'ajouter des fonctionnalités OCR à leur logiciel avec un minimum d'effort.
Quels sont les avantages d'utiliser IronOCR pour la gestion des documents ?
Utiliser IronOCR pour la gestion des documents rationalise le flux de travail en convertissant les documents numérisés en texte modifiable et consultable, réduisant le besoin de saisie manuelle des données et améliorant l'accessibilité des documents.
Comment IronOCR peut-il améliorer la précision des données ?
IronOCR améliore la précision des données grâce à ses algorithmes de reconnaissance avancés et ses fonctionnalités de correction d'image, garantissant que le processus d'extraction de texte est à la fois fiable et précis.
Y a-t-il un essai gratuit disponible pour IronOCR ?
Oui, Iron Software propose un essai gratuit d'IronOCR, permettant aux utilisateurs de tester ses fonctionnalités et capacités avant de prendre une décision d'achat.

