OCR en chinois dans C# ; et .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

Autres versions de ce document :

IronOCR est un composant logiciel C# permettant aux codeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, dont le chinois. Le pack de langue chinoise contient à la fois les caractères chinois simplifiés et les caractères chinois traditionnels.

Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET, et qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision. La bibliothèque permet la reconnaissance d'images et de documents de différents formats dans diverses langues, dont le chinois. Il prend en charge plus de 125 langues et offre un niveau de précision de reconnaissance élevé par rapport à la concurrence. L'API d'IronOCR a été conçue dans un souci d'extensibilité et de personnalisation. Vous pouvez aider IronOcr à atteindre un débit et une précision élevés en ajoutant vos données de réglage ou vos fonctionnalités au tracker. IronOCR utilise de nombreuses techniques de reconnaissance optique de caractères. Nous pouvons l'utiliser sur un PC Windows, Linux, macOS et d'autres plateformes connues.

Contenu de IronOcr.Languages.Chinese

Ce package contient 352 langues OCR pour .NET :

  • Chinois simplifié
  • Chinois simplifié Meilleur
  • Chinois simplifié rapide
  • Chinois simplifiéVertical
  • Chinois simplifiéVerticalBest
  • Chinois simplifiéVerticalFast
  • ChineseTraditional
  • ChineseTraditionalBest
  • Repas traditionnel chinois
  • Verticale traditionnelle chinoise
  • Verticale traditionnelle chinoiseBest
  • Chinois traditionnel vertical rapide

Télécharger

Nous pouvons télécharger le pack de langue chinoise [中文 (Zhōngwén)] à partir des liens suivants :

Utilisation d'IronOCR pour la langue chinoise

Créer ou ouvrir un projet C

Pour commencer avec IronOCR, nous devons créer un projet C# .NET. Nous utilisons Visual Studio 2022 à cette fin. Vous pouvez choisir une version en fonction de vos besoins. La dernière version de Visual Studio est recommandée pour une expérience fluide. Nous allons créer une interface graphique pour sélectionner l'image. Nous pouvons également utiliser IronOCR dans une application console en donnant le chemin direct de l'image. Pour créer un projet C# dans Visual Studio 2022, suivez les étapes suivantes :

  • Ouvrez Visual Studio 2022.
  • Cliquez sur le bouton "Créer un nouveau projet".
Chinese Ocr 1 related to Créer ou ouvrir un projet C

Saisissez " Windows " dans la barre de recherche, sélectionnez l' application " Windows Forms "* dans les résultats de la recherche et cliquez sur le bouton " Suivant ".

Chinese Ocr 2 related to Créer ou ouvrir un projet C
  • Donnez un nom au projet. J'attribue le nom "ChineseOCR" au projet. Après le nom, cliquez sur le bouton "Suivant".
Chinese Ocr 3 related to Créer ou ouvrir un projet C

Sélectionnez le framework .NET* sur l'écran suivant. Choisissez le framework .NET en fonction des besoins de votre projet. Nous avons sélectionné la version .NET 5.0 pour ce tutoriel.

Chinese Ocr 4 related to Créer ou ouvrir un projet C

Après avoir effectué votre sélection, cliquez sur le bouton " Créer ". Il créera facilement le projet C# Windows Forms dans Visual Studio.

Le projet a été créé, et il est maintenant prêt à être utilisé dans la bibliothèque IronOCR. Nous pouvons également utiliser le projet C# déjà existant. Ouvrez le projet et lancez l'installation de la bibliothèque IronOcr. La section suivante explore les méthodes d'installation de la bibliothèque IronOCR dans les projets C#.

Installation

Utilisation du gestionnaire de packages NuGet

Pour installer la bibliothèque IronOCR avec le gestionnaire de packages NuGet, il faut ouvrir l'interface de ce dernier. Suivez les étapes suivantes pour installer la bibliothèque IronOCR :

  • Cliquez sur " Outils " dans le menu principal, dans le menu déroulant, survolez " NuGet Package Manager " et sélectionnez " Gérer NuGet Package Manager pour la solution "
Chinese Ocr 5 related to Utilisation du gestionnaire de packages NuGet

Cela ouvrira l'interface du gestionnaire de packages NuGet. Accédez à l'onglet Parcourir et recherchez IronOcr en chinois. Sélectionnez le bon paquet dans les résultats de recherche et cliquez sur le bouton "Installer" pour l'installer.

Chinese Ocr 6 related to Utilisation du gestionnaire de packages NuGet
  • Il commencera à installer la bibliothèque. Après l'installation, vous pourrez utiliser la bibliothèque IronOCR dans votre projet.

Utilisation de la console du gestionnaire de packages

Utiliser une console est toujours une option facile. Nous pouvons également installer la bibliothèque IronOCR à l'aide de la console du gestionnaire de paquets. Suivez les étapes indiquées pour installer la bibliothèque IronOCR :

  • Ouvrez la console du gestionnaire de packages dans Visual Studio. Il se trouve généralement en bas de Visual Studio.
  • Écrivez la commande suivante dans la console :

    Install-Package IronOCR.Languages.Chinese
  • Vous pourrez suivre la progression de l'installation de la bibliothèque dans la console. La bibliothèque sera installée automatiquement. Après l'installation, notre projet sera prêt pour la bibliothèque IronOcr.

Exemple de code : OCR pour la langue chinoise

Il est maintenant temps d'écrire le code pour implémenter la bibliothèque IronOCR pour la langue chinoise. Tout d'abord, nous devons développer l'interface de sélection du fichier image. Voyons comment procéder.

Développement du frontend

Nous allons utiliser les éléments 'Toolbox' pour concevoir le devant. Nous allons créer un bouton, une zone d'image, une zone de texte riche et deux étiquettes. Nous allons glisser-déposer ces éléments depuis la boîte à outils et les placer dans le formulaire de la fenêtre. Nous gérerons ces éléments avec style.

Le bouton sera utilisé pour sélectionner le fichier image sur le PC. La boîte à images chargera le fichier image sélectionné et la boîte à texte riche affichera le texte de sortie. Vous pouvez ajuster la taille de chaque élément en fonction de vos besoins. Le design final de l'interface utilisateur ressemblera à ceci :

Chinese Ocr 7 related to Développement du frontend

Cette fenêtre apparaîtra lorsque vous exécuterez le projet. Nous avons réglé l'alignement des fenêtres pour qu'elles se forment au centre de l'écran. Ainsi, cet écran apparaîtra au centre.

Notre interface utilisateur est prête. Ensuite, il est temps d'ajouter la fonctionnalité backend du bouton.

Code backend pour IronOCR

Nous devons d'abord importer l'espace de noms IronOCR pour l'utiliser dans notre code. Écrivez la ligne suivante en tête du fichier :

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

Nous utiliserons le bouton "Sélectionner une image" pour sélectionner l'image et la charger dans la boîte à images. IronOCR traitera l'image de texte simplifié en chinois et affichera le texte de sortie dans la zone de texte riche. Ajoutons la fonctionnalité du bouton en double-cliquant sur celui-ci. Écrivez les lignes de code suivantes pour ajouter la fonctionnalité décrite :

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)

		Dim Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.ChineseTraditional

Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text
End Using
	End If
End Sub
$vbLabelText   $csharpLabel

Lorsqu'un utilisateur clique sur le bouton, une boîte de dialogue apparaît pour sélectionner l'image. Lorsque l'utilisateur sélectionne l'image, celle-ci se charge automatiquement dans la boîte à images. Nous utilisons Bitmap() pour imprimer des images dans la boîte à images. IronOCR se chargera ensuite de convertir les images en texte chinois. Nous avons défini Ocr. Language to ChineseTraditional pour reconnaître le texte en chinois traditionnel. Ocr. La fonction read lit le processus et stocke le résultat de l'OCR dans la variable Result. Si vous devez enregistrer le texte au format PDF, texte ou HTML, vous utiliserez la fonction SaveAs pour enregistrer le fichier dans le format de sortie de votre choix - IronOCR prend en charge plusieurs formats de sortie.

Exécuter le projet

Il est maintenant temps de lancer le projet. Cliquez sur le bouton Exécuter dans Visual Studio. Nous verrons cet écran sur notre écran.

Chinese Ocr 8 related to Exécuter le projet

Cliquez sur le bouton " Sélectionner une image ". La boîte de dialogue Sélectionner des fichiers s'ouvre. Sélectionnez un fichier image et appuyez sur Entrée.

Chinese Ocr 9 related to Exécuter le projet

Il la chargera dans la zone d'image, numérisera automatiquement l'image et affichera le résultat dans la zone de texte.

Chinese Ocr 10 related to Exécuter le projet

Voici le résultat de l'image que nous avons sélectionnée. IronOCR prend également en charge la lecture et la numérisation de fichiers PDF. Nous pouvons utiliser le format modifiable des fichiers PDF pour numériser et reconnaître du texte à l'aide d'IronOCR. Cette traduction peut également être réalisée dans différentes langues. IronOcr peut transformer le document PDF existant en un PDF interrogeable. IronOCR dispose de nombreux filtres d'image pour rendre les images claires à voir et à comprendre. Voici les filtres :

  • Input.Binarize()
  • Input.Contrast()
  • Input.Deskew()
  • Input.DeNoise()
  • Input.Dilate()
  • Input.EnhanceResolution(300)

Toutes ces fonctions augmentent la visibilité des caractères. IronOcr utilise ces fonctions pour clarifier et rendre un PDF consultable. Voyons comment procéder :

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // clean up twisted pages
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf") Input.Deskew()
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

Licences

IronOCR est gratuit pour le développement. Vous pouvez utiliser activement toutes ses fonctionnalités gratuitement. IronOCR propose également une essai gratuit pour la production sans aucun paiement nécessaire. Iron Software propose également en ce moment une offre très prisée : une suite de cinq logiciels pour le prix de deux seulement. Il suffit de payer en une seule fois les frais pour deux logiciels, et vous pourrez obtenir les cinq produits, y compris IronPDF et IronXL. Vous pouvez trouver plus d'informations sur ce lien à propos des licences.