Han Simplified Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 idiomas más

IronOCR es un componente de software en C# que permite a los programadores de .NET leer texto de imágenes y documentos PDF en 126 idiomas, incluido el alfabeto chino simplificado.

Se trata de una bifurcación avanzada de Tesseract, creada exclusivamente para desarrolladores de .NET y que suele superar a otros motores de Tesseract tanto en velocidad como en precisión.

Contenido de IronOcr.Languages.Han

Este paquete contiene 400 idiomas OCR for .NET:

  • HanSimplifiedAlphabet
  • HanSimplifiedAlphabetBest
  • HanSimplifiedAlphabetFast
  • HanSimplifiedVerticalAlphabet
  • HanSimplifiedVerticalAlphabetBest
  • HanSimplifiedVerticalAlphabetFast
  • HanTraditionalAlphabet
  • HanTraditionalAlphabetBest
  • HanTraditionalAlphabetFast
  • HanTraditionalVerticalAlphabet
  • HanTraditionalVerticalAlphabetBest
  • HanTraditionalVerticalAlphabetFast

Descargar

Paquete de idiomas del alfabeto simplificado Han [Samhan]

  • Download as [Zip](javascript:window.open("/csharp/ocr/packages/language-packs/Han.ocrdata.zip")
  • Instalar con NuGet

Instalación

Lo primero que tenemos que hacer es instalar nuestro paquete OCR de alfabeto chino simplificado en tu proyecto .NET.

Ejecute el siguiente comando en la Consola del Administrador de paquetes:

Install-Package IronOcr.Languages.Han

Ejemplo de código

Este ejemplo de código C# lee texto en alfabeto chino simplificado a partir de una imagen o un documento PDF.

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Co/nsole.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Co/nsole.WriteLine(AllText);
        }
    }
}
Imports IronOcr

Class Program
    Shared Sub Main()
        ' Create an IronTesseract OCR engine
        Dim Ocr As New IronTesseract()

        ' Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han

        ' Using a 'Using' block for resource management
        Using Input As New OcrInput("images\Han.png")
            ' Process the image to extract text
            Dim Result = Ocr.Read(Input)

            ' Retrieve and display the extracted text
            Dim AllText As String = Result.Text
            System.Console.WriteLine(AllText)
        End Using
    End Sub
End Class
$vbLabelText   $csharpLabel

Explicación

  • Comenzamos haciendo referencia a la biblioteca IronOCR para utilizar sus capacidades de OCR.
  • Se crea una instancia de IronTesseract para procesar los documentos de imagen/PDF.
  • El idioma para el proceso de OCR se establece en Han utilizando Ocr.Language.
  • Una imagen se carga utilizando OcrInput y se procesa llamando a Ocr.Read().
  • El resultado del proceso de OCR se almacena en Result.Text, que contiene el texto extraído del documento.
  • Finalmente, imprimimos el texto en la consola.

Asegúrese de utilizar las directivas using adecuadas y de gestionar los recursos de forma eficiente con las instrucciones using, especialmente cuando se trate de recursos no gestionados, como flujos de archivos.