Han Simplified Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 idiomas más

IronOCR es un componente de software C# que permite a los programadores de .NET leer texto de imágenes y documentos PDF en 126 idiomas, incluyendo el Alfabeto Simplificado de Han.

Es una rama avanzada de Tesseract, construida exclusivamente para desarrolladores de .NET y supera regularmente a otros motores de Tesseract tanto en velocidad como en precisión.

Contenidos de IronOcr.Languages.Han

Este paquete contiene 400 idiomas OCR for .NET:

  • HanSimplifiedAlphabet
  • HanSimplifiedAlphabetBest
  • HanSimplifiedAlphabetFast
  • HanSimplifiedVerticalAlphabet
  • HanSimplifiedVerticalAlphabetBest
  • HanSimplifiedVerticalAlphabetFast
  • HanTraditionalAlphabet
  • HanTraditionalAlphabetBest
  • HanTraditionalAlphabetFast
  • HanTraditionalVerticalAlphabet
  • HanTraditionalVerticalAlphabetBest
  • HanTraditionalVerticalAlphabetFast

Descargar

Paquete de idioma Alfabeto Simplificado de Han [Samhan]

Instalación

Lo primero que debemos hacer es instalar nuestro paquete OCR Alfabeto Simplificado de Han en tu proyecto .NET.

Ejecute el siguiente comando en la Consola del Administrador de Paquetes:

Install-Package IronOcr.Languages.Han

Ejemplo de código

Este ejemplo de código C# lee texto del Alfabeto Simplificado de Han desde una imagen o documento PDF.

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
$vbLabelText   $csharpLabel

Explicación

  • Comenzamos referenciando la biblioteca IronOcr para usar sus capacidades OCR.
  • Se crea una instancia de IronTesseract para procesar los documentos de imagen/PDF.
  • El idioma para el proceso de OCR se establece en Han utilizando Ocr.Language.
  • Se carga una imagen usando OcrInput y se procesa llamando a Ocr.Read().
  • El resultado del proceso de OCR se almacena en Result.Text, que contiene el texto extraído del documento.
  • Finalmente imprimimos el texto en la consola.

Asegúrese de tener las directivas using adecuadas y administrar los recursos de manera eficiente con declaraciones using, especialmente cuando se trata de recursos no administrados como flujos de archivos.