Japanese OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

**Autres versions de ce document: 日本語で

IronOCR est un composant logiciel C# permettant aux codeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, dont le japonais. Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET, qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision.

Elle a été testée sur de nombreuses plates-formes matérielles différentes et la bibliothèque logicielle a été mise à jour avec la dernière version de .NET. C'est un bon choix pour les développeurs qui ont besoin d'effectuer une reconnaissance optique de caractères dans leurs applications ou projets. IronOcr fournit aux développeurs d'applications une API facile à utiliser qui fonctionne avec de nombreux langages et peut être intégrée aux applications de diverses manières. IronOCR prend en charge 125 langues d'OCR. Il s'agit d'un outil d'OCR fantastique.

Contenu de IronOcr.Languages.Japanese

Le package japonais IronOcr effectue une grande variété d'opérations. Ce pack contient plusieurs langages OCR pour .NET :

  • Alphabet japonais
  • Alphabet japonaisBest
  • Alphabet japonaisFast
  • Alphabet vertical japonais
  • Alphabet vertical japonaisBest
  • Alphabet vertical japonaisFast
  • Japonais
  • JaponaisBest
  • JaponaisFast
  • JaponaisVertical
  • JaponaisVerticalBest
  • JaponaisVerticalFast

Télécharger

Vous pouvez télécharger le pack linguistique japonais d'IronOCR [日本語 (にほんご)] à partir des liens suivants :

  • Télécharger comme [Zip]( Zip )
  • Installer avec [NuGet]( NuGet )

Nous allons nous pencher sur l'installation d'IronOcr dans les sections suivantes.

Utilisation d'IronOCR pour la langue japonaise

Créer ou ouvrir un projet C

Commençons par créer un projet C#. Nous utilisons Visual Studio 2022 pour créer un projet C# - vous pouvez choisir n'importe quelle version selon vos préférences. La dernière version de Visual Studio est recommandée. Suivez les étapes ci-dessous pour créer un projet C# :

  • Ouvrez Visual Studio 2022.
  • Cliquez sur le bouton "Créer un nouveau projet".
Chinese Ocr 1 related to Créer ou ouvrir un projet C

Ecrivez "Windows" dans la barre de recherche, sélectionnez l'application "Windows Form "* dans les résultats de la recherche et cliquez sur le bouton "Suivant".

Chinese Ocr 2 related to Créer ou ouvrir un projet C
  • Donnez un nom au projet. J'ai nommé le projet "JapaneseOCR" Une fois le projet nommé, cliquez sur le bouton "Suivant".
Japanese Ocr 1 related to Créer ou ouvrir un projet C

Sélectionnez le cadre .NET* sur l'écran suivant. Sélectionnez le framework .NET en fonction des besoins de votre projet. Nous avons choisi la version .NET 5.0 pour ce tutoriel.

Chinese Ocr 4 related to Créer ou ouvrir un projet C
  • Après la sélection, cliquez sur le bouton "Créer". Elle permettra de créer facilement le projet C# Windows Form dans Visual Studio.

Le projet a été créé ! Nous pouvons maintenant l'utiliser dans notre bibliothèque IronOCR. Nous pouvons également l'utiliser pour un projet C# existant. Ouvrez le projet et commencez l'installation de la bibliothèque IronOcr. La section suivante explique comment installer la bibliothèque IronOCR dans les projets C#.

Installation

Il est maintenant temps d'installer la bibliothèque IronOcr dans notre projet. La bibliothèque IronOCR peut être installée de deux manières différentes. Nous pouvons installer IronOCR à l'aide de la console du gestionnaire de paquets et du gestionnaire de paquets NuGet. Examinons les deux méthodes.

Utilisation de NuGet Package Manager

Pour installer la bibliothèque IronOCR avec NuGet Package Manager, nous devons ouvrir l'interface de NuGet Package Manager. Suivez les étapes suivantes pour installer la bibliothèque IronOCR :

  • Cliquez sur "Outils" dans le menu principal, dans le menu déroulant, survolez "NuGet Package Manager" et sélectionnez "Gérer les paquets NuGet pour la solution"
Chinese Ocr 5 related to Utilisation de NuGet Package Manager
  • L'interface du gestionnaire de paquets NuGet s'ouvre alors. Allez dans l'onglet Parcourir et écrivez "IronOCR japonais" dans la barre de recherche. Sélectionnez le paquet japonais dans les résultats de la recherche et cliquez sur le bouton "Installer" pour commencer l'installation.
Japanese Ocr 2 related to Utilisation de NuGet Package Manager
  • L'installation de la bibliothèque commencera. Après l'installation, vous pourrez utiliser la bibliothèque IronOCR dans votre projet.

Utilisation de la console du gestionnaire de paquets

Nous installerons la bibliothèque IronOCR à l'aide de la console du gestionnaire de paquets. Il est facile d'installer la bibliothèque à l'aide de la console. Voyons comment nous pouvons installer la bibliothèque IronOCR à l'aide de la console :

  • Ouvrez le projet et accédez à la console du gestionnaire de paquets dans Visual Studio. Elle se trouve généralement au bas de Visual Studio.
  • Écrivez la commande suivante dans la console pour installer le langage d'OCR IronOcr en japonais :

    PM> Install-Package IronOCR.Languages.Japanese
    PM> Install-Package IronOCR.Languages.Japanese
    SHELL
  • L'installation commencera et vous verrez la progression dans la console. Après l'installation, vous verrez la dépendance IronOCR dans la section "dépendances" de l'explorateur de solutions.

Après l'installation, vous pourrez utiliser la bibliothèque sans aucun logiciel tiers. Ensuite, il est temps de mettre en place la partie frontale de notre programme.

Exemple de code : Langue japonaise pour OCR

Il est maintenant temps d'écrire le code pour la mise en œuvre de la bibliothèque IronOCR pour la langue japonaise. Tout d'abord, nous devons développer l'interface de sélection du fichier image. Voyons comment procéder.

Développement de l'interface utilisateur

Pour le développement frontal, nous utiliserons la "boîte à outils" de Visual Studio. Il contient de nombreux éléments préfabriqués que nous pouvons utiliser pour concevoir notre interface utilisateur. Nous utiliserons une zone d'image, une zone de texte riche, un bouton et deux étiquettes pour l'identification. Nous donnerons à ces éléments une forme appropriée et une bonne interface utilisateur en fonction de nos besoins. Vous pouvez modifier la taille et les propriétés des éléments selon votre choix. Nous rendons la zone de texte de sortie non éditable, et la propriété d'image de la zone d'image est "Zoom", de sorte que chaque image s'adapte à la zone d'image. Notre interface ressemblera à ceci :

Japanese Ocr 3 related to Développement de l'interface utilisateur

Code de base pour IronOCR

Notre interface est prête. Il est maintenant temps de la mettre en ligne. Mais tout d'abord, nous devons importer l'espace de noms IronOCR pour utiliser IronOCR dans notre code. Écrivez la ligne suivante au début du fichier :

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

Le bouton "Select Image" sera utilisé pour sélectionner les images japonaises. Lorsque nous choisissons l'image, elle se charge automatiquement dans la boîte à images et devient visible. Parallèlement, IronOCR commencera à reconnaître des mots japonais à partir des images téléchargées. Une fois le processus terminé, le résultat s'affichera dans la zone de texte riche. Ajoutons ces fonctionnalités au bouton en double-cliquant dessus. Voici un exemple de code pour la fonctionnalité du bouton. Le texte de sortie sera également sauvegardé dans un fichier "txt".

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()

	' Display the image selection dialog, and upon successful image selection, proceed
	If open.ShowDialog() = DialogResult.OK Then
		' Display selected image in the picture box
		img_image.Image = New Bitmap(open.FileName)

		' Initialize IronTesseract for OCR processing
		Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}

		' Using 'OcrInput' to process the selected image file
		Using Input = New OcrInput(open.FileName)
			' Perform OCR to extract text from the image
			Dim Result = Ocr.Read(Input)

			' Display recognized text in the rich text box
			txt_output.Text = Result.Text

			' Save the output as a text file named "JapaneseText.txt"
			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
$vbLabelText   $csharpLabel

Dans cette fonction, lorsque l'utilisateur clique sur le bouton, une boîte de dialogue de sélection apparaît, invitant l'utilisateur à sélectionner une image contenant du texte japonais. Lorsque l'utilisateur sélectionne l'image, la fonction Bitmap prend le chemin de l'image et la charge dans la boîte à images. Après le chargement, nous initialisons la bibliothèque IronOCR et définissons la langue sur le japonais. IronOCR prend le chemin de l'image en entrée et commence à numériser. Après la numérisation, il stocke le texte de sortie dans la variable Result et l'affiche en tant que sortie dans la zone de texte riche. Enfin, il enregistre le fichier de sortie sous la forme d'un fichier "txt" nommé "JapaneseText".

Exécuter le projet

Nous avons conçu le code et implémenté le backend. Il est maintenant temps d'exécuter le programme pour vérifier si la fonctionnalité fonctionne bien ou non.

  • Cliquez sur le bouton vert pour lancer le projet. Nous verrons cet écran au milieu des écrans de nos systèmes d'exploitation.
Japanese Ocr 4 related to Exécuter le projet
  • Cliquez sur le bouton "Sélectionner une image" et sélectionnez l'image qui contient le texte japonais.
Japanese Ocr 5 related to Exécuter le projet
  • Vous verrez le texte de l'image de sortie dans la zone de texte enrichi.
Japanese Ocr 6 related to Exécuter le projet
  • Un fichier texte du résultat de l'OCR sera enregistré sous "JapaneseText"
Japanese Ocr 7 related to Exécuter le projet

La précision de l'OCR d'IronOCR est excellente.

Résumé

Dans ce tutoriel, nous avons appris à utiliser la bibliothèque IronOCR pour le texte japonais. Si vous souhaitez en savoir plus sur IronOcr, cliquez sur ce lien.

Pour plus d'informations sur Iron Software, veuillez cliquer sur ce lien. Si vous souhaitez essayer la bibliothèque IronOCR, alors vous pouvez activer l'essai gratuit sans aucun paiement. Iron Software propose actuellement une offre spéciale permettant d'acheter une suite de cinq logiciels pour le prix de deux seulement. Pour plus d'informations, veuillez cliquer ici.