OCR japonais en C# et .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

**Autres versions de ce document :

IronOCR est un composant logiciel C# permettant aux développeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, dont le japonais. Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET, et qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision.

Il a été testé sur de nombreuses plateformes matérielles différentes, et la bibliothèque logicielle a été mise à jour avec la dernière version de .NET. C'est un bon choix pour les développeurs qui ont besoin d'effectuer une reconnaissance optique de caractères (OCR) dans leurs applications ou leurs projets. IronOCR fournit aux développeurs d'applications une API facile à utiliser, compatible avec de nombreux langages et intégrable de diverses manières aux applications. IronOCR prend en charge 125 langues OCR. C'est un outil OCR fantastique.

Contenu d'IronOcr.Langues.Japonais

Le logiciel japonais IronOCR permet d'effectuer une grande variété d'opérations. Ce package contient plusieurs langages OCR pour .NET :

  • Alphabet japonais
  • Meilleur alphabet japonais
  • Alphabet japonais rapide
  • Alphabet vertical japonais
  • Meilleur de l'alphabet vertical japonais
  • Alphabet vertical japonais rapide
  • Japonais
  • JaponaisMeilleur
  • JaponaisRapide
  • JaponaisVertical
  • JaponaisVerticalMeilleur
  • JaponaisVerticalFast

Télécharger

Vous pouvez télécharger le pack de langue japonaise IronOCR [Japonais (Nihongo)] à partir des liens suivants :

  • Télécharger au format [ Zip ](<a class=)">ZIP
  • Installer avec [ NuGet ](<a target=)">NuGet

Nous examinerons l'installation d'IronOCR dans les sections suivantes.

Utilisation d'IronOCR pour la langue japonaise

Créer ou ouvrir un projet C

Commençons par créer un projet C#. Nous utilisons Visual Studio 2022 pour créer un projet C# — vous pouvez choisir n'importe quelle version selon vos préférences. La dernière version de Visual Studio est recommandée. Suivez les étapes ci-dessous pour créer un projet C# :

  • Ouvrez Visual Studio 2022.
  • Cliquez sur le bouton "Créer un nouveau projet".
Chinese Ocr 1 related to Créer ou ouvrir un projet C

Saisissez " Windows " dans la barre de recherche, sélectionnez l' application " Windows Forms "* dans les résultats de la recherche et cliquez sur le bouton " Suivant ".

Chinese Ocr 2 related to Créer ou ouvrir un projet C
  • Donnez un nom au projet. J'ai nommé le projet " JapaneseOCR ". Une fois le nom donné, cliquez sur le bouton " Suivant ".
Japanese Ocr 1 related to Créer ou ouvrir un projet C

Sélectionnez le framework .NET* sur l'écran suivant. Choisissez le framework .NET en fonction des besoins de votre projet. Nous avons sélectionné la version .NET 5.0 pour ce tutoriel.

Chinese Ocr 4 related to Créer ou ouvrir un projet C

Après avoir effectué votre sélection, cliquez sur le bouton " Créer ". Il créera facilement le projet C# Windows Forms dans Visual Studio.

Le projet a été créé ! Nous pouvons désormais l'utiliser dans notre bibliothèque IronOCR. Nous pouvons également l'utiliser avec un projet C# existant. Ouvrez le projet et lancez l'installation de la bibliothèque IronOCR. La section suivante explique comment installer la bibliothèque IronOCR dans les projets C#.

Installation

Il est maintenant temps d'installer la bibliothèque IronOCR dans notre projet. La bibliothèque IronOCR peut être installée de deux manières différentes. Nous pouvons installer IronOCR à l'aide de la console du gestionnaire de packages et du gestionnaire de packages NuGet. Examinons les deux méthodes.

Utilisation du gestionnaire de packages NuGet

Pour installer la bibliothèque IronOCR avec le gestionnaire de packages NuGet, il faut ouvrir l'interface de ce dernier. Suivez les étapes suivantes pour installer la bibliothèque IronOCR :

  • Cliquez sur " Outils " dans le menu principal, puis dans le menu déroulant, survolez " Gestionnaire de packages NuGet " et sélectionnez " Gérer les packages NuGet pour la solution ".
Chinese Ocr 5 related to Utilisation du gestionnaire de packages NuGet

Cela ouvrira l'interface du gestionnaire de packages NuGet. Allez dans l'onglet Parcourir et saisissez " IronOCR Japonais " dans la barre de recherche. Sélectionnez le package japonais dans les résultats de la recherche et cliquez sur le bouton " Installer " pour lancer l'installation.

Japanese Ocr 2 related to Utilisation du gestionnaire de packages NuGet
  • L'installation de la bibliothèque va commencer. Après l'installation, vous pourrez utiliser la bibliothèque IronOCR dans votre projet.

Utilisation de la console du gestionnaire de packages

Nous installerons la bibliothèque IronOCR à l'aide de la console du gestionnaire de packages. L'installation de la bibliothèque via la console est simple. Voyons comment installer la bibliothèque IronOCR à l'aide de la console :

Ouvrez le projet et accédez à la console du gestionnaire de packages dans Visual Studio. Il se trouve généralement en bas de Visual Studio.

  • Saisissez la commande suivante dans la console pour installer le module OCR japonais d'IronOCR :

    PM> Install-Package IronOCR.Languages.Japanese
    PM> Install-Package IronOCR.Languages.Japanese
    SHELL

L'installation va commencer et vous pourrez suivre sa progression dans la console. Après l'installation, vous verrez la dépendance IronOCR dans la section " dépendances " de l'Explorateur de solutions.

Après l'installation, vous pourrez utiliser la bibliothèque sans aucun logiciel tiers. Ensuite, il est temps de configurer l'interface utilisateur de notre programme.

Exemple de code : Langue japonaise pour la reconnaissance optique de caractères (OCR)

Il est maintenant temps d'écrire le code pour implémenter la bibliothèque IronOCR pour la langue japonaise. Il nous faut d'abord développer l'interface permettant de sélectionner le fichier image. Voyons comment procéder.

Développement de l'interface utilisateur

Pour le développement front-end, nous utiliserons la " boîte à outils " de Visual Studio. Il contient de nombreux éléments prédéfinis que nous pouvons utiliser pour concevoir notre interface utilisateur. Nous utiliserons une zone d'image, une zone de texte enrichi, un bouton et deux étiquettes d'identification. Nous donnerons à ces éléments une forme appropriée et une bonne interface utilisateur en fonction de nos besoins. Vous pouvez modifier la taille et les propriétés des éléments selon vos préférences. Le champ de texte de sortie est non modifiable et la propriété " Zoom " du champ image permet d'afficher correctement toutes les images. Notre interface utilisateur ressemblera à ceci :

Japanese Ocr 3 related to Développement de l'interface utilisateur

Code backend pour IronOCR

Notre interface utilisateur est prête. Il est temps de le mettre en ligne. Mais d'abord, nous devons importer l'espace de noms IronOCR pour pouvoir utiliser IronOCR dans notre code. Inscrivez la ligne suivante en haut du fichier :

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

Le bouton " Sélectionner une image " servira à sélectionner des images japonaises. Lorsque nous sélectionnerons l'image, elle se chargera automatiquement dans la zone d'image et sera visible. Dans le même temps, IronOCR commencera à reconnaître les mots japonais à partir des images téléchargées. Une fois le processus terminé, le résultat s'affichera dans la zone de texte enrichi. Ajoutons ces fonctionnalités au bouton en double-cliquant dessus. Voici un exemple de code pour la fonctionnalité du bouton. Il enregistrera également le texte de sortie dans un fichier " txt ".

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()

	' Display the image selection dialog, and upon successful image selection, proceed
	If open.ShowDialog() = DialogResult.OK Then
		' Display selected image in the picture box
		img_image.Image = New Bitmap(open.FileName)

		' Initialize IronTesseract for OCR processing
		Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}

		' Using 'OcrInput' to process the selected image file
		Using Input = New OcrInput(open.FileName)
			' Perform OCR to extract text from the image
			Dim Result = Ocr.Read(Input)

			' Display recognized text in the rich text box
			txt_output.Text = Result.Text

			' Save the output as a text file named "JapaneseText.txt"
			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
$vbLabelText   $csharpLabel

Dans cette fonction, lorsque l'utilisateur clique sur le bouton, une boîte de dialogue de sélection apparaît, invitant l'utilisateur à sélectionner une image contenant du texte japonais. Lorsque l'utilisateur sélectionne l'image, la fonction Bitmap récupère le chemin d'accès à l'image et la charge dans la zone d'image. Après le chargement, nous initialisons la bibliothèque IronOCR et définissons la langue sur le japonais. IronOCR prend le chemin de l'image en entrée et commence la numérisation. Après la numérisation, il stocke le texte de sortie dans la variable Result et l'affiche dans la zone de texte enrichi. Enfin, il enregistre le fichier de sortie en tant que fichier "txt" nommé "JapaneseText".

Exécuter le projet

Nous avons conçu le code et implémenté le backend. Il est maintenant temps d'exécuter le programme pour vérifier si la fonctionnalité fonctionne correctement ou non.

  • Cliquez sur le bouton de lecture vert pour lancer le projet. Nous verrons cet écran au milieu des écrans de nos systèmes d'exploitation.
Japanese Ocr 4 related to Exécuter le projet
  • Cliquez sur le bouton " Sélectionner une image " et sélectionnez l'image contenant du texte japonais.
Japanese Ocr 5 related to Exécuter le projet
  • Le texte de l'image de sortie s'affichera dans la zone de texte enrichi.
Japanese Ocr 6 related to Exécuter le projet
  • Un fichier texte contenant le résultat de la reconnaissance optique de caractères (OCR) sera enregistré sous le nom " JapaneseText ".
Japanese Ocr 7 related to Exécuter le projet

La précision de la reconnaissance optique de caractères (OCR) d'IronOCR est excellente.

Résumé

Dans ce tutoriel, nous avons appris à utiliser la bibliothèque IronOCR pour le texte japonais. Si vous souhaitez en savoir plus sur IronOCR, veuillez cliquer sur ce lien .

Pour plus d'informations sur Iron Software, veuillez cliquer sur ce lien . Si vous souhaitez essayer la bibliothèque IronOCR, vous pouvez activer l'essai gratuit sans aucun paiement. Iron Software propose actuellement une offre spéciale vous permettant d'acheter une suite de cinq logiciels pour le prix de deux seulement. Pour plus d'informations, veuillez cliquer ici.