OCR chinois en C# et .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

Autres versions de ce document :

IronOCR est un composant logiciel C# permettant aux développeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, dont le chinois. Le pack de langue chinoise contient à la fois les caractères chinois simplifiés et les caractères chinois traditionnels.

Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET, et qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision. La bibliothèque permet la reconnaissance d'images et de documents de différents formats dans diverses langues, dont le chinois. Il prend en charge plus de 125 langues et offre un niveau de précision de reconnaissance élevé par rapport à la concurrence. L'API d'IronOCR a été conçue dans un souci d'extensibilité et de personnalisation. Vous pouvez aider IronOCR à atteindre un débit et une précision élevés en ajoutant vos données ou fonctionnalités de réglage au système de suivi. IronOCR utilise de nombreuses techniques de reconnaissance optique de caractères. Nous pouvons l'utiliser sur un PC Windows, Linux, macOS et d'autres plateformes populaires.

Contenu de IronOcr.Languages.Chinese

Ce package contient 352 langues OCR pour .NET :

  • Chinois simplifié
  • Chinois simplifié Meilleur
  • Chinois simplifié rapide
  • Chinois simplifiéVertical
  • Chinois simplifiéVerticalBest
  • Chinois simplifiéVerticalFast
  • ChineseTraditional
  • ChineseTraditionalBest
  • Repas traditionnel chinois
  • Verticale traditionnelle chinoise
  • Verticale traditionnelle chinoiseBest
  • Chinois traditionnel vertical rapide

Télécharger

Nous pouvons télécharger le pack de langue chinoise [中文 (Zhōngwén)] à partir des liens suivants :

  • Télécharger au format ZIP
  • Installer avec NuGet

Utilisation d'IronOCR pour la langue chinoise

Créer ou ouvrir un projet C

Pour commencer avec IronOCR, nous devons créer un projet C# .NET. Nous utilisons Visual Studio 2022 à cette fin. Vous pouvez choisir une version en fonction de vos besoins. Pour une expérience optimale, il est recommandé d'utiliser la dernière version de Visual Studio. Nous allons créer une interface graphique pour sélectionner l'image. Nous pouvons également utiliser IronOCR dans une application console en indiquant le chemin direct de l'image. Pour créer un projet C# dans Visual Studio 2022, suivez les étapes suivantes :

  • Ouvrez Visual Studio 2022.
  • Cliquez sur le bouton "Créer un nouveau projet".
Chinese Ocr 1 related to Créer ou ouvrir un projet C

Saisissez " Windows " dans la barre de recherche, sélectionnez l' application " Windows Forms "* dans les résultats de la recherche et cliquez sur le bouton " Suivant ".

Chinese Ocr 2 related to Créer ou ouvrir un projet C
  • Donnez un nom au projet. J'attribue le nom " ChineseOCR " au projet. Après avoir saisi le nom, cliquez sur le bouton " Suivant ".
Chinese Ocr 3 related to Créer ou ouvrir un projet C

Sélectionnez le framework .NET* sur l'écran suivant. Choisissez le framework .NET en fonction des besoins de votre projet. Nous avons sélectionné la version .NET 5.0 pour ce tutoriel.

Chinese Ocr 4 related to Créer ou ouvrir un projet C

Après avoir effectué votre sélection, cliquez sur le bouton " Créer ". Il créera facilement le projet C# Windows Forms dans Visual Studio.

Le projet a été créé et est maintenant prêt à être utilisé dans la bibliothèque IronOCR. Nous pouvons également utiliser le projet C# déjà existant. Ouvrez le projet et lancez l'installation de la bibliothèque IronOCR. La section suivante explorera les méthodes d'installation de la bibliothèque IronOCR dans les projets C#.

Installation

Utilisation du gestionnaire de packages NuGet

Pour installer la bibliothèque IronOCR avec le gestionnaire de packages NuGet, il faut ouvrir l'interface de ce dernier. Suivez les étapes suivantes pour installer la bibliothèque IronOCR :

  • Cliquez sur " Outils " dans le menu principal, puis dans le menu déroulant, survolez " Gestionnaire de packages NuGet " et sélectionnez " Gérer le Gestionnaire de packages NuGet pour la solution ".
Chinese Ocr 5 related to Utilisation du gestionnaire de packages NuGet

Cela ouvrira l'interface du gestionnaire de packages NuGet. Allez dans l'onglet Parcourir et recherchez IronOCR Chinois. Sélectionnez le bon package dans les résultats de recherche et cliquez sur le bouton " Installer " pour l'installer.

Chinese Ocr 6 related to Utilisation du gestionnaire de packages NuGet
  • L'installation de la bibliothèque va commencer. Après l'installation, vous pourrez utiliser la bibliothèque IronOCR dans votre projet.

Utilisation de la console du gestionnaire de packages

Utiliser une console est toujours une option facile. Nous pouvons également installer la bibliothèque IronOCR à l'aide de la console du gestionnaire de packages. Suivez les étapes indiquées pour installer la bibliothèque IronOCR :

  • Ouvrez la console du gestionnaire de packages dans Visual Studio. Il se trouve généralement en bas de Visual Studio.
  • Saisissez la commande suivante dans la console :

    Install-Package IronOCR.Languages.Chinese
  • Vous pourrez suivre la progression de l'installation de la bibliothèque dans la console. La bibliothèque sera installée automatiquement. Après l'installation, notre projet sera prêt pour la bibliothèque IronOCR.

Exemple de code : OCR pour la langue chinoise

Il est maintenant temps d'écrire le code pour implémenter la bibliothèque IronOCR pour la langue chinoise. Tout d'abord, nous devons développer l'interface permettant de sélectionner le fichier image. Voyons comment procéder.

Développement du frontend

Nous allons utiliser les éléments 'Toolbox' pour concevoir le devant. Nous allons créer un bouton, une zone d'image, une zone de texte enrichi et deux étiquettes. Nous allons glisser-déposer ces éléments depuis la boîte à outils et les placer dans le formulaire Windows. Nous gérerons ces éléments avec élégance.

Ce bouton servira à sélectionner le fichier image sur l'ordinateur. Le contrôle Picture Box chargera le fichier image sélectionné, et le contrôle Rich Textbox affichera le texte de sortie. Vous pouvez ajuster la taille de chaque élément selon vos besoins. Le design final de l'interface utilisateur ressemblera à ceci :

Chinese Ocr 7 related to Développement du frontend

Cette fenêtre apparaîtra lorsque vous exécuterez le projet. Nous avons configuré l'alignement des fenêtres pour qu'elles se forment au centre de l'écran. Cet écran apparaîtra donc au centre.

Notre interface utilisateur est prête. Ensuite, il est temps d'ajouter les fonctionnalités backend du bouton.

Code backend pour IronOCR

Nous devons d'abord importer l'espace de noms IronOCR pour pouvoir l'utiliser dans notre code. Inscrivez la ligne suivante en haut du fichier :

using IronOCR;
using IronOCR;
$vbLabelText   $csharpLabel

Nous utiliserons le bouton " Sélectionner une image " pour sélectionner l'image et la charger dans la zone d'image. IronOCR traitera l'image du texte chinois simplifié et affichera le texte de sortie dans la zone de texte enrichi. Ajoutons la fonctionnalité du bouton en double-cliquant dessus. Saisissez les lignes de code suivantes pour ajouter la fonctionnalité décrite :

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
$vbLabelText   $csharpLabel

Lorsqu'un utilisateur clique sur le bouton, une boîte de dialogue apparaît pour sélectionner l'image. Lorsque l'utilisateur sélectionne l'image, celle-ci se charge automatiquement dans la zone d'image. Nous utilisons Bitmap() pour imprimer les images dans la zone d'image. Ensuite, IronOCR convertira les images en texte chinois. Nous avons configuré OCR. Langue vers chinois traditionnel pour reconnaître un texte en chinois traditionnel. Ocr. La fonction de lecture lira le processus et stockera le résultat de la reconnaissance optique de caractères (OCR) dans la variable Result. Si vous devez enregistrer le texte au format PDF, texte ou HTML, vous utiliserez la fonction Enregistrer sous pour enregistrer le fichier dans le format de sortie souhaité — IronOCR prend en charge plusieurs formats de sortie.

Exécuter le projet

Il est maintenant temps de lancer le projet. Cliquez sur le bouton Exécuter dans Visual Studio. Nous verrons cet écran sur le nôtre.

Chinese Ocr 8 related to Exécuter le projet

Cliquez sur le bouton " Sélectionner une image ". Cela ouvrira la boîte de dialogue Sélectionner les fichiers. Sélectionnez un fichier image et appuyez sur Entrée.

Chinese Ocr 9 related to Exécuter le projet

Il la chargera dans la zone d'image, scannera automatiquement l'image et affichera le résultat dans la zone de texte.

Chinese Ocr 10 related to Exécuter le projet

Voici le résultat obtenu à partir de l'image sélectionnée. IronOCR prend également en charge la lecture et la numérisation des fichiers PDF. Nous pouvons utiliser le format modifiable des fichiers PDF pour numériser et reconnaître du texte grâce à IronOCR. Cela peut également être fait dans différentes langues. IronOCR peut transformer un document PDF existant en un PDF consultable. IronOCR propose de nombreux filtres d'image pour rendre les images plus claires à visualiser et à comprendre. Voici les filtres :

  • Input.Binarize()
  • Entrée.Contraste()
  • Entrée.Descew()
  • Entrée.DeNoise()
  • Entrée.Dilate()
  • Input.EnhanceResolution(300)

Toutes ces fonctions augmentent la visibilité des caractères. IronOCR utilise ces fonctions pour effacer et rendre un PDF consultable. Voyons comment cela peut être fait :

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

Licences

IronOCR est gratuit pour le développement. Vous pouvez utiliser gratuitement toutes ses fonctionnalités. IronOCR propose également un essai gratuit pour la production, sans aucun paiement requis. Iron Software propose actuellement une offre très populaire : une suite de cinq logiciels pour le prix de deux seulement. Il vous suffit de payer une seule fois le prix de deux logiciels pour obtenir les cinq produits, y compris IronPDF et IronXL. Vous trouverez plus d'informations sur les licences en suivant ce lien .