Han Simplified Alphabet OCR in C# and .NET
IronOCR est un composant logiciel C# permettant aux développeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, y compris l'alphabet simplifié Han.
Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET et qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision.
Contenu de IronOcr.Languages.Han
Ce package contient 400 langues OCR for .NET :
- Alphabet simplifié Han
- Meilleur de l'alphabet simplifié Han
- HanSimplifiedAlphabetFast
- HanSimplifiedVerticalAlphabet
- HanSimplifiedVerticalAlphabetBest
- HanSimplifiedVerticalAlphabetFast
- Alphabet traditionnel Han
- HanTraditionalAlphabetBest
- HanTraditionalAlphabetFast
- Alphabet vertical traditionnel Han
- Meilleur de l'alphabet vertical traditionnel Han
- HanTraditionalVerticalAlphabetFast
Télécharger
Pack de langue de l'alphabet simplifié Han [Samhan]
Installation
La première chose à faire est d'installer notre package OCR d'alphabet simplifié Han sur votre projet .NET.
Exécutez la commande suivante dans la console Package Manager :
Install-Package IronOcr.Languages.Han
Exemple de code
Cet exemple de code C# lit du texte en alphabet simplifié Han à partir d'une image ou d'un document PDF.
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Console.WriteLine(AllText);
}
}
}
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Console.WriteLine(AllText);
}
}
}
' Reference the IronOcr library
Imports IronOcr
Friend Class Program
Shared Sub Main()
' Create an IronTesseract OCR engine
Dim Ocr = New IronTesseract()
' Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han
' Using a 'using' statement for resource management
Using Input = New OcrInput("images\Han.png")
' Process the image to extract text
Dim Result = Ocr.Read(Input)
' Retrieve and display the extracted text
Dim AllText As String = Result.Text
System.Console.WriteLine(AllText)
End Using
End Sub
End Class
Explication
- Nous commençons par faire référence à la bibliothèque IronOcr pour utiliser ses capacités de reconnaissance optique de caractères (OCR).
- Une instance de
IronTesseractest créée pour traiter les documents image/PDF. - La langue du processus OCR est définie sur
Hanen utilisantOcr.Language. - Une image est chargée en utilisant
OcrInputet traitée en appelantOcr.Read(). - Le résultat du processus OCR est stocké dans
Result.Text, qui contient le texte extrait du document. - Nous affichons enfin le texte dans la console.
Assurez-vous d'avoir les directives using appropriées et gérez efficacement les ressources avec les instructions using, en particulier lorsque vous traitez des ressources non gérées comme les flux de fichiers.

