Han Simplified Alphabet OCR in C# and .NET
IronOCR es un componente de software en C# que permite a los programadores de .NET leer texto de imágenes y documentos PDF en 126 idiomas, incluido el alfabeto chino simplificado.
Se trata de una bifurcación avanzada de Tesseract, creada exclusivamente para desarrolladores de .NET y que suele superar a otros motores de Tesseract tanto en velocidad como en precisión.
Contenido de IronOcr.Languages.Han
Este paquete contiene 400 idiomas OCR for .NET:
- HanSimplifiedAlphabet
- HanSimplifiedAlphabetBest
- HanSimplifiedAlphabetFast
- HanSimplifiedVerticalAlphabet
- HanSimplifiedVerticalAlphabetBest
- HanSimplifiedVerticalAlphabetFast
- HanTraditionalAlphabet
- HanTraditionalAlphabetBest
- HanTraditionalAlphabetFast
- HanTraditionalVerticalAlphabet
- HanTraditionalVerticalAlphabetBest
- HanTraditionalVerticalAlphabetFast
Descargar
Paquete de idiomas del alfabeto simplificado Han [Samhan]
- Download as [Zip](javascript:window.open("/csharp/ocr/packages/language-packs/Han.ocrdata.zip")
- Instalar con NuGet
Instalación
Lo primero que tenemos que hacer es instalar nuestro paquete OCR de alfabeto chino simplificado en tu proyecto .NET.
Ejecute el siguiente comando en la Consola del Administrador de paquetes:
Install-Package IronOcr.Languages.Han
Ejemplo de código
Este ejemplo de código C# lee texto en alfabeto chino simplificado a partir de una imagen o un documento PDF.
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Co/nsole.WriteLine(AllText);
}
}
}
// Reference the IronOcr library
using IronOcr;
class Program
{
static void Main()
{
// Create an IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han;
// Using a 'using' statement for resource management
using (var Input = new OcrInput(@"images\Han.png"))
{
// Process the image to extract text
var Result = Ocr.Read(Input);
// Retrieve and display the extracted text
string AllText = Result.Text;
System.Co/nsole.WriteLine(AllText);
}
}
}
Imports IronOcr
Class Program
Shared Sub Main()
' Create an IronTesseract OCR engine
Dim Ocr As New IronTesseract()
' Load the Han language for OCR processing
Ocr.Language = OcrLanguage.Han
' Using a 'Using' block for resource management
Using Input As New OcrInput("images\Han.png")
' Process the image to extract text
Dim Result = Ocr.Read(Input)
' Retrieve and display the extracted text
Dim AllText As String = Result.Text
System.Console.WriteLine(AllText)
End Using
End Sub
End Class
Explicación
- Comenzamos haciendo referencia a la biblioteca IronOCR para utilizar sus capacidades de OCR.
- Se crea una instancia de
IronTesseractpara procesar los documentos de imagen/PDF. - El idioma para el proceso de OCR se establece en
HanutilizandoOcr.Language. - Una imagen se carga utilizando
OcrInputy se procesa llamando aOcr.Read(). - El resultado del proceso de OCR se almacena en
Result.Text, que contiene el texto extraído del documento. - Finalmente, imprimimos el texto en la consola.
Asegúrese de utilizar las directivas using adecuadas y de gestionar los recursos de forma eficiente con las instrucciones using, especialmente cuando se trate de recursos no gestionados, como flujos de archivos.

