Han Simplified Alphabet OCR in C# and .NET
IronOCR est un composant logiciel C# permettant aux développeurs .NET de lire du texte à partir d'images et de documents PDF dans 126 langues, y compris l'alphabet simplifié Han.
Il s'agit d'une version avancée de Tesseract, conçue exclusivement pour les développeurs .NET et qui surpasse régulièrement les autres moteurs Tesseract en termes de vitesse et de précision.
Contenu de IronOcr.Languages.Han
Ce package contient 400 langues OCR for .NET :
- HanSimplifiedAlphabet
- HanSimplifiedAlphabetBest
- HanSimplifiedAlphabetFast
- HanSimplifiedVerticalAlphabet
- HanSimplifiedVerticalAlphabetBest
- HanSimplifiedVerticalAlphabetFast
- HanTraditionalAlphabet
- HanTraditionalAlphabetBest
- HanTraditionalAlphabetFast
- HanTraditionalVerticalAlphabet
- HanTraditionalVerticalAlphabetBest
- HanTraditionalVerticalAlphabetFast
Télécharger
Pack de langue de l'alphabet simplifié Han [Samhan]
- Download as [Zip](javascript:window.open("/csharp/ocr/packages/language-packs/Han.ocrdata.zip")
- Installer avec NuGet
Installation
La première chose à faire est d'installer notre package OCR d'alphabet simplifié Han sur votre projet .NET.
Exécutez la commande suivante dans la console Package Manager :
Install-Package IronOcr.Languages.Han
Exemple de code
Cet exemple de code C# lit du texte en alphabet simplifié Han à partir d'une image ou d'un document PDF.
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Console.WriteLine(AllText);
}
}
}
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Console.WriteLine(AllText);
}
}
}
' Reference the IronOcr library
Imports IronOcr
Friend Class Program
Shared Sub Main()
' Create an IronTesseract OCR engine
Dim Ocr = New IronTesseract()
' Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han
' Using a 'using' statement for resource management
Using Input = New OcrInput("images\Han.png")
' Process the image to extract text
Dim Result = Ocr.Read(Input)
' Retrieve and display the extracted text
Dim AllText As String = Result.Text
System.Console.WriteLine(AllText)
End Using
End Sub
End Class
Explication
- Nous commençons par référencer la bibliothèque IronOCR afin d'utiliser ses capacités OCR.
- Une instance de
IronTesseractest créée pour traiter les documents image/PDF. - La langue du processus OCR est définie sur
Hanà l'aide deOcr.Language. - Une image est chargée à l'aide de
OcrInputet traitée en appelantOcr.Read(). - Le résultat du processus OCR est stocké dans
Result.Text, qui contient le texte extrait du document. - Nous affichons enfin le texte dans la console.
Veillez à utiliser les directives using appropriées et à gérer efficacement les ressources à l'aide des instructions using, en particulier lorsque vous traitez des ressources non gérées telles que les flux de fichiers.

