OCR japonés en C# y .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

**Otras versiones de este documento: 日本語で

IronOCR es un componente de software de C# que permite a los programadores de .NET leer texto de imágenes y documentos PDF en 126 idiomas, incluido el japonés. Es una derivación avanzada de Tesseract, construida exclusivamente para desarrolladores de .NET, y supera regularmente a otros motores de Tesseract tanto en velocidad como en precisión.

Se ha probado en muchas plataformas de hardware diferentes, y la biblioteca de software se ha actualizado a la última versión de .NET. Es una buena elección para los desarrolladores que necesitan realizar OCR en sus aplicaciones o proyectos. IronOCR proporciona a los desarrolladores de aplicaciones una API fácil de usar que funciona con muchos idiomas y se puede integrar en aplicaciones de diversas maneras. IronOCR soporta 125 idiomas de OCR. Es una herramienta de OCR fantástica.

Contenido de IronOcr.Languages.Japanese

El paquete japonés de IronOCR realiza una gran variedad de operaciones. Este paquete contiene varios idiomas OCR para .NET:

  • JapaneseAlphabet
  • JapaneseAlphabetBest
  • JapaneseAlphabetFast
  • JapaneseVerticalAlphabet
  • JapaneseVerticalAlphabetBest
  • JapaneseVerticalAlphabetFast
  • Japanese
  • JapaneseBest
  • JapaneseFast
  • JapaneseVertical
  • JapaneseVerticalBest
  • JapaneseVerticalFast

Descargar

Puede descargar el Paquete de Lenguaje Japonés de IronOCR [日本語 (にほんご)] desde los siguientes enlaces:

  • Descargar como [ Zip ](<a class=)">Zip
  • Instalar con [ NuGet ](<a target=)">NuGet

Veremos la instalación de IronOCR en las siguientes secciones.

Uso de IronOCR para el idioma japonés

Crear o abrir un proyecto de C

Comencemos creando un proyecto de C#. Estamos usando Visual Studio 2022 para crear un proyecto de C# — puede elegir cualquier versión según su preferencia. Se recomienda la última versión de Visual Studio. Siga los pasos a continuación para crear un proyecto de C#:

  • Abre Visual Studio 2022.
  • Haga clic en el botón "Crear un nuevo proyecto".
Chinese Ocr 1 related to Crear o abrir un proyecto de C
  • Escriba "Windows" en la barra de búsqueda, seleccione la "Aplicación de Windows Form" de los resultados de búsqueda y haga clic en el botón "Siguiente".
Chinese Ocr 2 related to Crear o abrir un proyecto de C
  • Da un nombre al proyecto. He llamado al proyecto "JapaneseOCR." Una vez nombrado, haga clic en el botón "Siguiente".
Japanese Ocr 1 related to Crear o abrir un proyecto de C
  • Seleccione el .NET framework en la siguiente pantalla. Seleccione el .NET framework según las necesidades de su proyecto. Estamos seleccionando la versión .NET 5.0 para este tutorial.
Chinese Ocr 4 related to Crear o abrir un proyecto de C
  • Después de seleccionar, haz clic en el botón "Create". Creará fácilmente el proyecto de C# Windows Form en Visual Studio.

¡El proyecto ha sido creado! Ahora podemos usarlo en nuestra biblioteca IronOCR. También podemos usarlo con un proyecto existente de C#. Abra el proyecto y comience la instalación de la biblioteca IronOCR. La siguiente sección explica cómo instalar la biblioteca IronOCR en proyectos de C#.

Instalación

Ahora es el momento de instalar la biblioteca IronOCR en nuestro proyecto. La biblioteca IronOCR se puede instalar de dos maneras diferentes. Podemos instalar IronOCR usando la Consola del Administrador de Paquetes y el Administrador de Paquetes NuGet. Veamos ambos métodos.

Uso del Administrador de paquetes NuGet

Para instalar la biblioteca IronOCR con el Administrador de Paquetes NuGet, debemos abrir la interfaz del Administrador de Paquetes NuGet. Siga los siguientes pasos para instalar la biblioteca IronOCR:

  • Haga clic en "Herramientas" desde el menú principal, del menú desplegable, pase el cursor sobre "Administrador de Paquetes NuGet" y seleccione "Administrar Paquetes NuGet para Solución."
Chinese Ocr 5 related to Uso del Administrador de paquetes NuGet
  • Esto abrirá la interfaz del Administrador de Paquetes NuGet. Vaya a la pestaña Explorar y escriba "IronOCR Japanese" en la barra de búsqueda. Seleccione el paquete japonés de los resultados de búsqueda y haga clic en el botón "Instalar" para comenzar la instalación.
Japanese Ocr 2 related to Uso del Administrador de paquetes NuGet
  • Comenzará la instalación de la biblioteca. Después de la instalación, podrás usar la biblioteca IronOCR en tu proyecto.

Uso de la consola del administrador de paquetes

Instalaremos la biblioteca IronOCR usando la Consola del Administrador de Paquetes. Es muy sencillo instalar la biblioteca usando la consola. Veamos cómo podemos instalar la biblioteca IronOCR usando la consola:

  • Abra el proyecto y vaya a la Consola del Administrador de Paquetes en Visual Studio. Por lo general, se encuentra en la parte inferior de Visual Studio.
  • Escriba el siguiente comando en la consola para instalar el idioma OCR japonés de IronOCR:

    PM> Install-Package IronOCR.Languages.Japanese
    PM> Install-Package IronOCR.Languages.Japanese
    SHELL
  • Comenzará la instalación, y verá el progreso en la consola. Después de la instalación, verá la dependencia de IronOCR en la sección "dependencias" en el Explorador de Soluciones.

Después de la instalación, podrá usar la biblioteca sin ningún software de terceros. A continuación, es hora de configurar el front-end de nuestro programa.

Ejemplo de código: idioma japonés para OCR

Ahora es el momento de escribir el código para implementar la biblioteca IronOCR para el idioma japonés. Primero, tenemos que desarrollar el frontend para seleccionar el archivo de imagen. Veamos cómo hacerlo.

Desarrollo del Frontend

Para el desarrollo del front-end, aprovecharemos la "Caja de Herramientas" en Visual Studio. Tiene muchos elementos prehechos que podemos usar para diseñar nuestro front-end. Usaremos una caja de imágenes, una caja de texto enriquecido, un botón y dos etiquetas para la identificación. Daremos a estos elementos una forma adecuada y una buena interfaz de usuario según nuestras necesidades. Puede cambiar el tamaño y las propiedades de los elementos según su elección. Hacemos que la caja de texto de salida no sea editable, y la propiedad de imagen de la caja de imágenes es "Zoom," para que cada imagen se ajuste en la caja de imágenes. Nuestro frontend se verá así:

Japanese Ocr 3 related to Desarrollo del Frontend

Código de backend para IronOCR

Nuestro front-end está listo. Ahora es momento de hacerlo en vivo. Pero primero, tenemos que importar el espacio de nombres IronOCR para usar IronOCR en nuestro código. Escriba la siguiente línea en la parte superior del archivo:

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

El botón "Seleccionar Imagen" se usará para seleccionar imágenes japonesas. Cuando seleccionemos la imagen, se cargará automáticamente en la caja de imágenes y será visible. Al mismo tiempo, IronOCR comenzará a reconocer palabras japonesas de las imágenes subidas. Después de completar el proceso, la salida se mostrará en la caja de texto enriquecido. Añadamos estas funcionalidades al botón haciendo doble clic en él. Aquí está el ejemplo de código para la funcionalidad del botón. También guardará el texto de salida en un archivo "txt".

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()

	' Display the image selection dialog, and upon successful image selection, proceed
	If open.ShowDialog() = DialogResult.OK Then
		' Display selected image in the picture box
		img_image.Image = New Bitmap(open.FileName)

		' Initialize IronTesseract for OCR processing
		Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}

		' Using 'OcrInput' to process the selected image file
		Using Input = New OcrInput(open.FileName)
			' Perform OCR to extract text from the image
			Dim Result = Ocr.Read(Input)

			' Display recognized text in the rich text box
			txt_output.Text = Result.Text

			' Save the output as a text file named "JapaneseText.txt"
			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
$vbLabelText   $csharpLabel

En esta función, cuando el usuario hace clic en el botón, aparecerá un cuadro de diálogo de selección, pidiéndole al usuario que seleccione una imagen que contenga texto japonés. Cuando el usuario selecciona la imagen, la función Bitmap toma la ruta de la imagen y la carga en la caja de imágenes. Después de cargarla, inicializamos la biblioteca IronOCR y configuramos el idioma a japonés. IronOCR toma la ruta de la imagen como entrada y comienza a escanear. Después de escanear, almacena el texto de salida en la variable Result y lo muestra como salida en la caja de texto enriquecido. Finalmente, guarda el archivo de salida como un archivo "txt" llamado "JapaneseText".

Ejecutar el proyecto

Hemos diseñado el código e implementado el backend. Ahora es el momento de ejecutar el programa para verificar si la funcionalidad funciona bien o no.

  • Haga clic en el botón de reproducción verde para ejecutar el proyecto. Veremos esta pantalla en el medio de las pantallas de nuestros sistemas operativos.
Japanese Ocr 4 related to Ejecutar el proyecto
  • Haga clic en el botón "Seleccionar Imagen" y elija la imagen que contiene texto japonés.
Japanese Ocr 5 related to Ejecutar el proyecto
  • Verá el texto de la imagen de salida en la caja de texto enriquecido.
Japanese Ocr 6 related to Ejecutar el proyecto
  • Un archivo de texto con el resultado de OCR se guardará con "JapaneseText."
Japanese Ocr 7 related to Ejecutar el proyecto

La precisión de OCR de IronOCR es excelente.

Resumen

En este tutorial, hemos aprendido cómo usar la biblioteca IronOCR para texto japonés. Si desea saber más sobre IronOCR, por favor haga clic en este enlace.

Para más información sobre Iron Software, por favor haga clic en este enlace. Si desea probar la biblioteca IronOCR, puede activar la prueba gratuita sin ningún pago. Iron Software actualmente ofrece una oferta especial en la que puede comprar un conjunto de cinco productos de software por el precio de solo dos. Para más información, por favor haga clic aquí.