OCR bengali en C# et .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English
Other versions of this document:

IronOCR est un composant logiciel C# permettant aux développeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, dont le bengali. Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET et qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision.

Contenu de IronOcr.Languages.Bengali

Ce package contient 114 langues OCR pour .NET :

  • Bengali
  • BengaliBest
  • BengaliFast
  • Alphabet bengali
  • Meilleur alphabet bengali
  • Alphabet bengali rapide

Télécharger

Pack de langue bengali [Bangla]

  • Télécharger au format ZIP
  • Installer avec NuGet

Installation

La première chose à faire est d'installer notre package OCR bengali sur votre projet .NET.

Install-Package IronOCR.Languages.Bengali

Exemple de code

Cet exemple de code C# lit du texte bengali à partir d'une image ou d'un document PDF.

// Import the IronOcr namespace
using IronOcr;

class BengaliOcrExample
{
    static void Main()
    {
        // Create an instance of IronTesseract
        var Ocr = new IronTesseract();

        // Specify the language for OCR
        Ocr.Language = OcrLanguage.Bengali;

        // Process the image and extract text
        using (var Input = new OcrInput(@"images\Bengali.png"))
        {
            // Perform OCR on the input image
            var Result = Ocr.Read(Input);

            // Get the extracted text
            var AllText = Result.Text;

            // Output the extracted text to the console
            System.Console.WriteLine(AllText);
        }
    }
}
// Import the IronOcr namespace
using IronOcr;

class BengaliOcrExample
{
    static void Main()
    {
        // Create an instance of IronTesseract
        var Ocr = new IronTesseract();

        // Specify the language for OCR
        Ocr.Language = OcrLanguage.Bengali;

        // Process the image and extract text
        using (var Input = new OcrInput(@"images\Bengali.png"))
        {
            // Perform OCR on the input image
            var Result = Ocr.Read(Input);

            // Get the extracted text
            var AllText = Result.Text;

            // Output the extracted text to the console
            System.Console.WriteLine(AllText);
        }
    }
}
' Import the IronOcr namespace
Imports IronOcr

Friend Class BengaliOcrExample
	Shared Sub Main()
		' Create an instance of IronTesseract
		Dim Ocr = New IronTesseract()

		' Specify the language for OCR
		Ocr.Language = OcrLanguage.Bengali

		' Process the image and extract text
		Using Input = New OcrInput("images\Bengali.png")
			' Perform OCR on the input image
			Dim Result = Ocr.Read(Input)

			' Get the extracted text
			Dim AllText = Result.Text

			' Output the extracted text to the console
			System.Console.WriteLine(AllText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Explication

  1. Importer IronOcr : Nous commençons par importer l'espace de noms IronOcr , qui contient les classes et les méthodes nécessaires pour effectuer les opérations OCR.

  2. Créer une instance d'IronTesseract : Nous créons une instance d' IronTesseract , qui est la classe principale pour effectuer l'OCR.

  3. Définir la langue : Nous définissons la langue OCR sur le bengali en utilisant OcrLanguage.Bengali.

  4. OcrInput : Nous spécifions le chemin d'accès à l'image à partir de laquelle nous souhaitons extraire le texte. Un objet OcrInput est utilisé pour charger et prétraiter le fichier d'entrée.

  5. Lire et extraire le texte : à l'aide de la méthode Read , nous traitons l'image pour lire le contenu textuel. Le texte est stocké dans Result.Text .

  6. Texte de sortie : Enfin, nous affichons le texte extrait dans la console pour vérifier le résultat.