OCR en chinois dans C&num ; et .NET
Autres versions de ce document:
- 简体中文版
125 langues supplémentaires pour l'OCR
IronOCR est un composant logiciel C# permettant aux codeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, y compris le chinois. Le pack de langue chinoise contient à la fois des caractères chinois simplifiés et des caractères chinois traditionnels.
Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET, qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision. La bibliothèque permet la reconnaissance d'images et de documents de différents formats dans diverses langues, y compris le chinois. Il prend en charge plus de 125 langues et offre un niveau élevé de précision de reconnaissance par rapport à la concurrence. L'API d'IronOCR a été conçue dans un souci d'extensibilité et de personnalisation. Vous pouvez aider IronOCR à atteindre un débit et une précision élevés en ajoutant vos données de réglage ou vos fonctionnalités au tracker. IronOCR utilise de nombreuses techniques de reconnaissance optique de caractères. On peut l'utiliser sur un PC Windows, Linux, macOS, et d'autres plateformes connues.
Contenu de IronOCR.Languages.Chinese
Ce paquet contient 352 langages OCR pour .NET :
- Chinois simplifié
- ChinoisSimplifiéLe meilleur
- ChinoisSimplifiéRapide
- Chinois simplifiéVertical
- ChinoisSimplifiéVerticalMeilleur
- Chinois simplifiéVerticalRapide
- ChinoisTraditionnel
- ChinoisTraditionnelLe meilleur
- ChinoisTraditionnelRapide
- ChinoisTraditionnelVertical
- ChinoisTraditionnelVerticalMeilleur
- ChinoisTraditionnelVerticalRapide
Télécharger
Nous pouvons télécharger le pack de langue chinoise [中文 (Zhōngwén)] à partir des liens suivants :
Utiliser IronOCR pour la langue chinoise
Créer ou ouvrir un projet C
Pour commencer à utiliser IronOCR, nous devons créer un projet C# .NET. Nous utilisons Visual Studio 2022 à cette fin. Vous pouvez choisir une version en fonction de vos besoins. La dernière version de Visual Studio est recommandée pour une expérience fluide. Nous allons créer une interface graphique pour sélectionner l'image. Nous pouvons également utiliser IronOCR dans une application console en donnant le chemin direct de l'image. Suivez les étapes suivantes pour créer un projet C# dans Visual Studio 2022 :
- Ouvrez Visual Studio 2022.
Cliquez sur le bouton "Créer un nouveau projet".
Ecrivez "Windows" dans la barre de recherche, sélectionnez l'application "Windows Form " dans les résultats de la recherche et cliquez sur le bouton "Suivant".
Donner un nom au projet. J'attribue le nom "ChineseOCR " au projet. Après le nom, cliquez sur le bouton "Suivant".
Sélectionnez le .NET framework sur l'écran suivant. Sélectionnez le Framework .NET en fonction des besoins de votre projet. Nous avons choisi la version .NET 5.0 pour ce tutoriel.
Après la sélection, cliquez sur le bouton "Créer". Il permettra de créer facilement le projet C# Windows Form dans Visual Studio.
Le projet a été créé et il est maintenant prêt à être utilisé dans la bibliothèque IronOCR. Nous pouvons également utiliser le projet C# déjà existant. Ouvrez le projet et lancez l'installation de la bibliothèque IronOCR. La section suivante explore les méthodes d'installation de la bibliothèque IronOCR dans les projets C#.
Installation
Utilisation du gestionnaire de paquets NuGet
Pour installer la bibliothèque IronOCR avec NuGet Package Manager, nous devons ouvrir l'interface de NuGet Package Manager. Suivez les étapes suivantes pour installer la bibliothèque IronOCR :
Cliquez sur "Outils" dans le menu principal, dans le menu déroulant, survolez "NuGet Package Manager" et sélectionnez "Gérer NuGet Package Manager pour la solution"
L'interface du gestionnaire de paquets NuGet s'ouvre alors. Allez dans l'onglet Parcourir et recherchez IronOCR Chinese. Sélectionnez le bon paquet dans les résultats de recherche et cliquez sur le bouton "Installer" pour l'installer.
- L'installation de la bibliothèque commence. Après l'installation, vous pourrez utiliser la bibliothèque IronOCR dans votre projet.
Utilisation de la console du gestionnaire de paquets
L'utilisation d'une console est toujours une option facile. Nous pouvons également installer la bibliothèque IronOCR à l'aide de la console du gestionnaire de paquets. Suivez les étapes indiquées pour installer la bibliothèque IronOCR :
- Ouvrez la console du gestionnaire de paquets dans Visual Studio. Il se trouve généralement en bas de Visual Studio.
- Ecrivez la commande suivante dans la console :
Install-Package IronOCR.Languages.Chinese
- Vous verrez la progression de l'installation de la bibliothèque dans la console. La bibliothèque sera installée automatiquement. Après l'installation, notre projet sera prêt pour la bibliothèque IronOCR.
Exemple de code : OCR pour la langue chinoise
Il est maintenant temps d'écrire le code d'implémentation de la bibliothèque IronOCR pour la langue chinoise. Tout d'abord, nous devons développer l'interface de sélection du fichier image. Voyons comment nous pouvons le faire.
Développement de l'interface utilisateur
Nous utiliserons les éléments de la "boîte à outils" pour concevoir la façade. Nous allons créer un bouton, une zone d'image, une zone de texte riche et deux étiquettes. Nous allons glisser-déposer ces éléments depuis la boîte à outils et les placer dans le formulaire de la fenêtre. Nous gérerons ces éléments avec style.
Ce bouton permet de sélectionner le fichier image sur le PC. La boîte à image chargera le fichier image sélectionné et la boîte à texte riche affichera le texte de sortie. Vous pouvez ajuster la taille de chaque élément en fonction de vos besoins. La conception finale de l'interface utilisateur ressemblera à ceci :
Cette fenêtre s'affiche lorsque vous exécutez le projet. Nous avons réglé l'alignement des fenêtres pour qu'elles se forment au centre de l'écran. Ainsi, cet écran apparaîtra au centre.
Notre interface est prête. Ensuite, il est temps d'ajouter la fonctionnalité backend du bouton.
Code backend pour IronOCR
Nous devons d'abord importer l'espace de noms IronOCR pour l'utiliser dans notre code. Écrivez la ligne suivante en haut du fichier :
using IronOCR;
using IronOCR;
Imports IronOCR
Nous utiliserons le bouton "Sélectionner une image" pour sélectionner l'image et la charger dans la boîte à images. IronOCR traitera l'image de texte simplifié chinois et affichera le texte de sortie dans la zone de texte riche. Ajoutons la fonctionnalité du bouton en double-cliquant sur celui-ci. Écrivez les lignes de code suivantes pour ajouter la fonctionnalité décrite :
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
var Result = Ocr.Read(Input);
txt_output.Text = Result.Text;
}
}
}
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
var Result = Ocr.Read(Input);
txt_output.Text = Result.Text;
}
}
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
Dim open As New OpenFileDialog()
If open.ShowDialog() = DialogResult.OK Then
' display image in picture box
img_image.Image = New Bitmap(open.FileName)
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseTraditional
Using Input = New OcrInput(open.FileName)
Dim Result = Ocr.Read(Input)
txt_output.Text = Result.Text
End Using
End If
End Sub
Lorsqu'un utilisateur clique sur le bouton, une boîte de dialogue apparaît pour sélectionner l'image. Lorsque l'utilisateur sélectionne l'image, celle-ci est automatiquement chargée dans la boîte à images. Nous utilisons Bitmap() pour l'impression des images dans la boîte à images. Ensuite, IronOCR convertit les images en texte chinois. Nous avons mis l'Ocr. Language to ChineseTraditional pour reconnaître un texte en chinois traditionnel. Ocr. La fonction de lecture lit le processus et stocke le résultat de l'OCR dans la variable Result. Si vous devez enregistrer le texte au format PDF, texte ou HTML, vous utiliserez la fonction SaveAs pour enregistrer le fichier dans le format de sortie de votre choix - IronOCR prend en charge plusieurs formats de sortie.
Exécuter le projet
Il est maintenant temps d'exécuter le projet. Cliquez sur le bouton Exécuter dans Visual Studio. Nous verrons cet écran sur notre écran.
Cliquez sur le bouton "Sélectionner une image". La boîte de dialogue Sélectionner des fichiers s'ouvre. Sélectionnez un fichier image et appuyez sur la touche Entrée.
Il la chargera dans la boîte à images, numérisera automatiquement l'image et affichera le résultat dans la boîte à textes.
Voici le résultat de l'image que nous sélectionnons. IronOCR prend également en charge la lecture et la numérisation des fichiers PDF. Nous pouvons utiliser le format modifiable des fichiers PDF pour numériser et reconnaître du texte à l'aide d'IronOCR. Cela peut également se faire dans différentes langues. IronOCR peut transformer le document PDF existant en un PDF interrogeable. IronOCR dispose de nombreux filtres d'image pour rendre les images plus claires à visualiser et à comprendre. Voici les filtres :
- Input.Binarize()
- Contraste d'entrée()
- Input.Deskew()
- Input.DeNoise()
- Input.Dilate()
Input.EnhanceResolution(300)
Toutes ces fonctions augmentent la visibilité des caractères. IronOCR utilise ces fonctions pour effacer et rendre un PDF consultable. Voyons comment procéder :
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Licences
IronOCR est libre de développement. Vous pouvez utiliser activement toutes ses fonctionnalités gratuitement. IronOCR propose également un service de essai gratuit pour la production sans aucun paiement. Iron Software propose également une offre très appréciée : une suite de cinq logiciels pour le prix de deux seulement. Il vous suffit de payer en une seule fois la redevance pour deux logiciels et vous pourrez obtenir les cinq produits, y compris IronPDF et IronXL. Vous trouverez plus d'informations sur le site suivant lien sur l'octroi de licences.