OCR de l'alphabet simplifié Han en C# et .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 autres langues

IronOCR est un composant logiciel C# permettant aux développeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, y compris l'alphabet simplifié Han.

Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET et qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision.

Contenu de IronOcr.Languages.Han

Ce package contient 400 langues OCR pour .NET :

  • Alphabet simplifié Han
  • Meilleur de l'alphabet simplifié Han
  • HanSimplifiedAlphabetFast
  • HanSimplifiedVerticalAlphabet
  • HanSimplifiedVerticalAlphabetBest
  • HanSimplifiedVerticalAlphabetFast
  • Alphabet traditionnel Han
  • HanTraditionalAlphabetBest
  • HanTraditionalAlphabetFast
  • Alphabet vertical traditionnel Han
  • Meilleur de l'alphabet vertical traditionnel Han
  • HanTraditionalVerticalAlphabetFast

Télécharger

Pack de langue de l'alphabet simplifié Han [Samhan]

Installation

La première chose à faire est d'installer notre package OCR d'alphabet simplifié Han sur votre projet .NET.

Exécutez la commande suivante dans la console Gestionnaire de paquets :

Install-Package IronOCR.Languages.Han

Exemple de code

Cet exemple de code C# lit du texte en alphabet simplifié Han à partir d'une image ou d'un document PDF.

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
' Reference the IronOcr library
Imports IronOcr

Friend Class Program
	Shared Sub Main()
		' Create an IronTesseract OCR engine
		Dim Ocr = New IronTesseract()

		' Load the Han language for OCR processing
		Ocr.Language = OcrLanguage.Han

		' Using a 'using' statement for resource management
		Using Input = New OcrInput("images\Han.png")
			' Process the image to extract text
			Dim Result = Ocr.Read(Input)

			' Retrieve and display the extracted text
			Dim AllText As String = Result.Text
			System.Console.WriteLine(AllText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Explication

  • Nous commençons par faire référence à la bibliothèque IronOcr pour utiliser ses capacités de reconnaissance optique de caractères (OCR).
  • Une instance d' IronTesseract est créée pour traiter les documents image/PDF.
  • La langue du processus OCR est définie sur Han à l'aide Ocr.Language .
  • Une image est chargée à l'aide OcrInput et traitée en appelant Ocr.Read() .
  • Le résultat du processus OCR est stocké dans Result.Text , qui contient le texte extrait du document.
  • Nous affichons enfin le texte dans la console.

Veillez à utiliser les directives using appropriées et à gérer efficacement les ressources avec des instructions using , en particulier lorsqu'il s'agit de ressources non gérées comme les flux de fichiers.