OCR du japonais en C# et .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

Autres versions de ce document:

  • 日本語で
  • 125 langues supplémentaires pour l'OCR

    IronOCR est un composant logiciel C# permettant aux codeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, y compris le japonais. Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET, qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision.

    Il a été testé sur de nombreuses plates-formes matérielles différentes et la bibliothèque logicielle a été mise à jour avec la dernière version de .NET. C'est un bon choix pour les développeurs qui ont besoin de faire de l'OCR dans leurs applications ou projets. IronOCR fournit aux développeurs d'applications une API facile à utiliser qui fonctionne avec de nombreux langages et peut être intégrée dans des applications de différentes manières. IronOCR prend en charge 127 langues d'OCR. C'est un outil d'OCR fantastique.

Contenu de IronOCR.Languages.Japanese

Le paquet japonais IronOCR effectue une grande variété d'opérations. Ce paquet contient 286 langages OCR pour .NET :

  • Alphabet japonais
  • Alphabet japonaisLe meilleur
  • Alphabet japonais rapide
  • Alphabet vertical japonais
  • Alphabet vertical japonaisLe meilleur
  • AlphabetVerticalJaponaisRapide
  • Japonais
  • Le meilleur du Japon
  • Rapidité japonaise
  • JaponaisVertical
  • JaponaisVerticalBest
  • JaponaisVerticalFast

Télécharger

Vous pouvez télécharger le pack linguistique japonais d'IronOCR[日本語(にほんご)] à partir des liens suivants :

  • Télécharger en tant que Zip
  • Installer avec NuGet

    Nous verrons l'installation d'IronOCR dans les sections suivantes.

Utiliser IronOCR pour la langue japonaise

Créer ou ouvrir un projet C

Commençons par créer un projet C#. Nous utilisons Visual Studio 2022 pour créer un projet C# - vous pouvez choisir n'importe quelle version selon vos préférences. La dernière version de Visual Studio est recommandée. Suivez les étapes ci-dessous pour créer un projet C# :

  • Ouvrez Visual Studio 2022.
  • Cliquez sur le bouton "Créer un nouveau projet".

    Chinese Ocr 1 related to Créer ou ouvrir un projet C
  • Ecrivez "Windows" dans la barre de recherche, sélectionnez l'application "Windows Form " dans les résultats de la recherche et cliquez sur le bouton "Suivant".

    Chinese Ocr 2 related to Créer ou ouvrir un projet C
  • Donner un nom au projet. J'ai nommé le projet "JapaneseOCR" Une fois le projet nommé, cliquez sur le bouton "Suivant".

    Japanese Ocr 1 related to Créer ou ouvrir un projet C
  • Sélectionnez le .NET framework sur l'écran suivant. Sélectionnez le Framework .NET en fonction des besoins de votre projet. Nous avons choisi la version .NET 5.0 pour ce tutoriel.

    Chinese Ocr 4 related to Créer ou ouvrir un projet C
  • Après la sélection, cliquez sur le bouton "Créer". Il permettra de créer facilement le projet C# Windows Form dans Visual Studio.

    Le projet a été créé! Nous pouvons maintenant l'utiliser dans notre bibliothèque IronOCR. Nous pouvons également l'utiliser avec un projet C# existant. Ouvrez le projet et commencez l'installation de la bibliothèque IronOCR. La section suivante explique comment installer la bibliothèque IronOCR dans les projets C#.

Installation

Il est maintenant temps d'installer la bibliothèque IronOCR dans notre projet. La bibliothèque IronOCR peut être installée de deux manières différentes. Nous pouvons installer IronOCR à l'aide de la console du gestionnaire de paquets et du gestionnaire de paquets NuGet. Examinons les deux méthodes.

Utilisation du gestionnaire de paquets NuGet

Pour installer la bibliothèque IronOCR avec NuGet Package Manager, nous devons ouvrir l'interface de NuGet Package Manager. Suivez les étapes suivantes pour installer la bibliothèque IronOCR :

  • Cliquez sur "Outils" dans le menu principal, dans le menu déroulant, survolez "NuGet Package Manager" et sélectionnez "Gérer NuGet Package Manager pour la solution"

    Chinese Ocr 5 related to Utilisation du gestionnaire de paquets NuGet
  • L'interface du gestionnaire de paquets NuGet s'ouvre alors. Allez dans l'onglet Parcourir et écrivez IronOCR Japanese dans la barre de recherche. Sélectionnez le paquet japonais dans les résultats de la recherche et cliquez sur le bouton "Installer" pour commencer l'installation.

    Japanese Ocr 2 related to Utilisation du gestionnaire de paquets NuGet
  • L'installation de la bibliothèque commence. Après l'installation, vous pourrez utiliser la bibliothèque IronOCR dans votre projet.

Utilisation de la console du gestionnaire de paquets

Nous allons installer la bibliothèque IronOCR à l'aide de la console du gestionnaire de paquets. Il est facile d'installer la bibliothèque à l'aide de la console. Voyons comment installer la bibliothèque IronOCR à l'aide de la console :

  • Ouvrez le projet et accédez à la console du gestionnaire de paquets dans Visual Studio. Il se trouve généralement au bas de Visual Studio.
  • Écrivez la commande suivante dans la console pour installer le langage d'OCR IronOCR japonais : PM> Install-Package IronOCR.Languages.Japanese
  • L'installation commencera et vous verrez la progression dans la console. Après l'installation, vous verrez la dépendance IronOCR dans la section "dépendances" de l'explorateur de solutions.

    Après l'installation, vous pourrez utiliser la bibliothèque sans aucun logiciel tiers. Ensuite, il est temps de mettre en place la partie frontale de notre programme.

Exemple de code : Langue japonaise pour l'OCR

Il est maintenant temps d'écrire le code d'implémentation de la bibliothèque IronOCR pour la langue japonaise. Tout d'abord, nous devons développer l'interface de sélection du fichier image. Voyons comment procéder.

Développement de l'interface utilisateur

Pour le développement frontal, nous utiliserons la "boîte à outils" de Visual Studio. Il contient de nombreux éléments préfabriqués que nous pouvons utiliser pour concevoir notre interface utilisateur. Nous utiliserons une zone d'image, une zone de texte riche, un bouton et deux étiquettes pour l'identification. Nous donnerons à ces éléments une forme appropriée et une bonne interface utilisateur en fonction de nos besoins. Vous pouvez modifier la taille et les propriétés des ingrédients selon votre choix. La zone de texte de sortie n'est pas modifiable et la propriété d'image de la zone d'image est "Zoom", de sorte que toutes les images s'adaptent à la zone d'image. Notre interface ressemblera à ceci :

Japanese Ocr 3 related to Développement de l'interface utilisateur

Code de base pour IronOCR :

Notre interface est prête. Il est maintenant temps de le rendre opérationnel. Mais d'abord, nous devons importer l'espace de noms IronOCR pour utiliser IronOCR dans notre code. Écrivez la ligne suivante en haut du fichier :

using IronOCR;
using IronOCR;
Imports IronOCR
VB   C#

Le bouton "Sélectionner une image" permet de sélectionner des images japonaises. Lorsque nous choisissons l'image, elle se charge automatiquement dans la boîte à images et est visible. Parallèlement, IronOCR commencera à reconnaître des mots japonais à partir des images téléchargées. Une fois le processus terminé, le résultat s'affiche dans la zone de texte riche. Ajoutons ces fonctionnalités au bouton en double-cliquant dessus. Voici un exemple de code pour la fonctionnalité du bouton. Il enregistre également le texte de sortie dans un fichier "txt".

Exemple de code

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)
		' image file path  
		'textBox1.Text = open.FileName;
		Dim Ocr = New IronTesseract()
		Ocr.Language = OcrLanguage.JapaneseBest
		Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text

			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
VB   C#

Dans cette fonction, nous implémentons que lorsque l'utilisateur clique sur le bouton, une boîte de dialogue de sélection apparaît et invite l'utilisateur à sélectionner une image contenant du texte japonais. Lorsque l'utilisateur sélectionne l'image, la fonction Bitmap() La fonction prend le chemin de l'image et la charge dans la boîte à images. Après le chargement, nous initialisons la bibliothèque IronOCR et définissons la langue sur "Japanese ". IronOCR prend le chemin de l'image en entrée et commence à numériser. Après la numérisation, il stocke le texte de sortie dans la variable "Résultat" et l'affiche dans la zone de texte enrichi. Enfin, il enregistre les fichiers de sortie sous forme de fichiers "txt" portant le nom "JapaneseText. "

Exécuter le projet

Nous avons conçu le code et implémenté le backend. Il est maintenant temps d'exécuter le programme pour vérifier si la fonctionnalité fonctionne bien ou non.

  • Cliquez sur le bouton vert de lecture pour exécuter le projet. Nous verrons cet écran au milieu des écrans de nos systèmes d'exploitation.

    Japanese Ocr 4 related to Exécuter le projet
  • Cliquez sur le bouton "Sélectionner une image" et sélectionnez l'image qui contient le texte japonais.

    Japanese Ocr 5 related to Exécuter le projet
  • Vous verrez le texte de l'image de sortie dans la zone de texte riche.

    Japanese Ocr 6 related to Exécuter le projet
  • Un fichier texte du résultat de l'OCR sera enregistré avec "JapaneseText"
    Japanese Ocr 7 related to Exécuter le projet

    La précision de l'OCR d'IronOCR est excellente.

Résumé

Dans ce tutoriel, nous avons appris à utiliser la bibliothèque IronOCR pour le texte japonais. Si vous voulez en savoir plus sur IronOCR, cliquez sur ce lien lien.

Pour plus d'informations sur Iron Software, cliquez sur le lien suivant lien. Si vous souhaitez essayer la bibliothèque IronOCR, vous pouvez activer la version d'essai gratuite sans aucun paiement. Iron Software propose actuellement une offre spéciale qui vous permet d'acheter une suite de cinq logiciels pour le prix de deux seulement. Pour plus d'informations, veuillez cliquer sur ici.