OCR del alfabeto simplificado Han en C# y .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

126 idiomas más

IronOCR es un componente de software C# que permite a los programadores de .NET leer texto de imágenes y documentos PDF en 126 idiomas, incluyendo el Alfabeto Simplificado de Han.

Es una rama avanzada de Tesseract, construida exclusivamente para desarrolladores de .NET y supera regularmente a otros motores de Tesseract tanto en velocidad como en precisión.

Contenidos de IronOcr.Languages.Han

Este paquete contiene 400 idiomas OCR para .NET:

  • HanSimplifiedAlphabet
  • HanSimplifiedAlphabetBest
  • HanSimplifiedAlphabetFast
  • HanSimplifiedVerticalAlphabet
  • HanSimplifiedVerticalAlphabetBest
  • HanSimplifiedVerticalAlphabetFast
  • HanTraditionalAlphabet
  • HanTraditionalAlphabetBest
  • HanTraditionalAlphabetFast
  • HanTraditionalVerticalAlphabet
  • HanTraditionalVerticalAlphabetBest
  • HanTraditionalVerticalAlphabetFast

Descargar

Paquete de idioma Alfabeto Simplificado de Han [Samhan]

Instalación

Lo primero que debemos hacer es instalar nuestro paquete OCR Alfabeto Simplificado de Han en tu proyecto .NET.

Ejecute el siguiente comando en la Consola del Administrador de Paquetes:

Install-Package IronOCR.Languages.Han

Ejemplo de código

Este ejemplo de código C# lee texto del Alfabeto Simplificado de Han desde una imagen o documento PDF.

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
' Reference the IronOcr library
Imports IronOcr

Friend Class Program
	Shared Sub Main()
		' Create an IronTesseract OCR engine
		Dim Ocr = New IronTesseract()

		' Load the Han language for OCR processing
		Ocr.Language = OcrLanguage.Han

		' Using a 'using' statement for resource management
		Using Input = New OcrInput("images\Han.png")
			' Process the image to extract text
			Dim Result = Ocr.Read(Input)

			' Retrieve and display the extracted text
			Dim AllText As String = Result.Text
			System.Console.WriteLine(AllText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Explicación

  • Comenzamos referenciando la biblioteca IronOcr para usar sus capacidades OCR.
  • Se crea una instancia de IronTesseract para procesar las imágenes/documentos PDF.
  • El idioma para el proceso OCR se establece en Han usando Ocr.Language.
  • Una imagen se carga usando OcrInput y se procesa llamando a Ocr.Read().
  • El resultado del proceso OCR se almacena en Result.Text, que contiene el texto extraído del documento.
  • Finalmente imprimimos el texto en la consola.

Asegúrate de tener las directivas using apropiadas y gestiona los recursos eficientemente con declaraciones using, especialmente al tratar con recursos no gestionados como flujos de archivos.