OCR japonés en C# y .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

Otras versiones de este documento:

*日本語で

*125 idiomas más de OCR

IronOCR es un componente de software C# que permite a los programadores .NET leer texto de imágenes y documentos PDF en 126 idiomas, incluido el japonés. Se trata de una bifurcación avanzada de Tesseract, creada exclusivamente para desarrolladores .NET, que suele superar a otros motores Tesseract en velocidad y precisión.

Se ha probado en muchas plataformas de hardware diferentes y la biblioteca de software se ha actualizado a la última versión de .NET. Es una buena opción para los desarrolladores que necesitan realizar OCR en sus aplicaciones o proyectos. IronOCR proporciona a los desarrolladores de aplicaciones una API fácil de usar que funciona con muchos lenguajes y puede integrarse en las aplicaciones de diversas formas. IronOCR es compatible con 127 idiomas de OCR. Es una fantástica herramienta de OCR.

Contenido de IronOcr.Languages.Japanese

El paquete japonés IronOCR realiza una gran variedad de operaciones. Este paquete contiene 286 lenguajes OCR para .NET:

  • Alfabeto japonés
  • JaponésAlfabetoMejor
  • JaponésAlfabetoRápido
  • AlfabetoVerticalJaponés
  • JaponésAlfabeto verticalMejor
  • AlfabetoVerticalJaponésRápido
  • Japonés
  • JaponésMejor
  • JaponésRápido
  • JaponésVertical
  • JaponésVerticalMejor
  • JaponésVerticalFast

Descargar

Puede descargar el paquete de idioma japonés de IronOCR[日本語(にほんご)] desde los siguientes enlaces:

  • Descargar como Código postal
  • Instalar con NuGet

    Veremos la instalación de IronOCR en las siguientes secciones.

Uso de IronOCR para el idioma japonés

Crear o abrir un proyecto C

Empecemos por crear un proyecto en C#. Estamos utilizando Visual Studio 2022 para crear un proyecto C# - puedes elegir cualquier versión según tus preferencias. Se recomienda la última versión de Visual Studio. Siga los pasos que se indican a continuación para crear un proyecto C#:

  • Abre Visual Studio 2022.
  • Haga clic en el botón "Crear un nuevo proyecto".

    Chinese Ocr 1 related to Crear o abrir un proyecto C
  • Escriba "Windows" en la barra de búsqueda, seleccione la aplicación "Windows Form " de los resultados de la búsqueda y pulse el botón "Siguiente".

    Chinese Ocr 2 related to Crear o abrir un proyecto C
  • Dale un nombre al proyecto. He llamado al proyecto "JapaneseOCR". Una vez nombrado, haz clic en el botón "Siguiente".

    Japanese Ocr 1 related to Crear o abrir un proyecto C
  • Seleccione el marco .NET en la siguiente pantalla. Seleccione el .NET Framework en función de las necesidades de su proyecto. Estamos seleccionando la versión .NET 5.0 para este tutorial.

    Chinese Ocr 4 related to Crear o abrir un proyecto C
  • Después de seleccionar, haga clic en el botón "Crear". Creará fácilmente el proyecto C# Windows Form en Visual Studio.

    El proyecto se ha creado! Ahora podemos utilizarlo en nuestra biblioteca IronOCR. También podemos utilizarlo con un proyecto C# existente. Abra el proyecto e inicie la instalación de la biblioteca IronOCR. La siguiente sección explica cómo instalar la librería IronOCR en proyectos C#.

Instalación

Ahora es el momento de instalar la biblioteca IronOCR en nuestro proyecto. La biblioteca IronOCR puede instalarse de dos formas distintas. Podemos instalar IronOCR utilizando la consola del gestor de paquetes y el gestor de paquetes NuGet. Veamos ambos métodos.

Uso del gestor de paquetes NuGet

Para instalar la biblioteca IronOCR con NuGet Package Manager, debemos abrir la interfaz de NuGet Package Manager. Siga los siguientes pasos para instalar la biblioteca IronOCR:

  • Haga clic en "Herramientas" en el menú principal, en el menú desplegable, coloque el cursor sobre "NuGet Package Manager" y seleccione la opción "Administrar NuGet Package Manager para la solución".

    Chinese Ocr 5 related to Uso del gestor de paquetes NuGet
  • Se abrirá la interfaz del Gestor de paquetes NuGet. Vaya a la pestaña de navegación y escriba IronOCR Japonés en la barra de búsqueda. Seleccione el paquete japonés en los resultados de la búsqueda y haga clic en el botón "Instalar" para iniciar la instalación.

    Japanese Ocr 2 related to Uso del gestor de paquetes NuGet
  • Comenzará la instalación de la biblioteca. Tras la instalación, podrá utilizar la biblioteca IronOCR en su proyecto.

Uso de la consola del gestor de paquetes

Instalaremos la biblioteca IronOCR utilizando la consola del gestor de paquetes. Es muy sencillo instalar la biblioteca utilizando la consola. Veamos cómo podemos instalar la biblioteca IronOCR utilizando la consola:

  • Abra el proyecto y vaya a la consola del gestor de paquetes en Visual Studio. Suele encontrarse en la parte inferior de Visual Studio.
  • Escriba el siguiente comando en la consola para instalar el lenguaje OCR japonés de IronOCR: PM> Install-Package IronOCR.Languages.Japanese (Instalar paquete IronOCR.Idiomas.Japonés)
  • Comenzará la instalación y verás el progreso en la consola. Tras la instalación, verá la dependencia IronOCR en la sección "dependencias" del Explorador de soluciones.

    Tras la instalación, podrá utilizar la biblioteca sin necesidad de software de terceros. A continuación, es hora de configurar el front-end de nuestro programa.

Ejemplo de código: Idioma japonés para OCR

Ha llegado el momento de escribir el código para implementar la biblioteca IronOCR para el idioma japonés. En primer lugar, tenemos que desarrollar el frontend para seleccionar el archivo de imagen. Veamos cómo hacerlo.

Desarrollo del Frontend

Para el desarrollo front-end, aprovecharemos la "Caja de herramientas" de Visual Studio. Tiene muchos elementos prefabricados que podemos utilizar para diseñar nuestro front-end. Utilizaremos un cuadro de imagen, un cuadro de texto enriquecido, un botón y dos etiquetas para la identificación. Daremos a estos elementos una forma adecuada y una buena IU según nuestras necesidades. Puede cambiar el tamaño y las propiedades de los ingredientes según su elección. Hacemos que el cuadro de texto de salida no sea editable, y la propiedad de imagen del cuadro de imagen es "Zoom", por lo que cada imagen cabrá en el cuadro de imagen. Nuestro frontend tendrá este aspecto:

Japanese Ocr 3 related to Desarrollo del Frontend

Código backend para IronOCR:

Nuestro frontal está listo. Ahora es el momento de ponerlo en marcha. Pero primero, tenemos que importar el espacio de nombres IronOCR para utilizar IronOCR en nuestro código. Escriba la siguiente línea en la parte superior del archivo:

using IronOCR;
using IronOCR;
Imports IronOCR
VB   C#

El botón "Seleccionar imagen" se utilizará para seleccionar imágenes japonesas. Y cuando elijamos la imagen, se cargará automáticamente en el cuadro de imagen y será visible. Al mismo tiempo, IronOCR empezará a reconocer palabras en japonés a partir de las imágenes cargadas. Una vez finalizado el proceso, el resultado se mostrará en el cuadro de texto enriquecido. Añadamos estas funcionalidades al botón haciendo doble clic sobre él. Aquí está el ejemplo de código para la funcionalidad del botón. También guardará el texto de salida en un archivo "txt".

Ejemplo de código

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)
		' image file path  
		'textBox1.Text = open.FileName;
		Dim Ocr = New IronTesseract()
		Ocr.Language = OcrLanguage.JapaneseBest
		Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text

			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
VB   C#

En esta función, implementamos cuando el usuario hace clic en el botón, aparecerá un cuadro de diálogo de selección y le pedirá al usuario que seleccione una imagen que contenga texto en japonés. Cuando el usuario selecciona la imagen, el Bitmap()La función toma la ruta de la imagen y la carga en el cuadro de imagen. Tras la carga, inicializamos la biblioteca IronOCR y establecemos el idioma en "japonés ". IronOCR tomará la ruta de la imagen como entrada y comenzará a escanear. Después de escanear, almacena el texto de salida en la variable "Resultado" y lo muestra como salida en el cuadro de texto enriquecido. Por último, guardará los archivos de salida como archivos "txt" con el nombre "JapaneseText ".

Ejecutar el proyecto

Hemos diseñado el código e implementado el backend. Ahora es el momento de ejecutar el programa para comprobar si la funcionalidad funciona bien o no.

  • Haz clic en el botón verde de reproducción para ejecutar el proyecto. Veremos esta pantalla en medio de las pantallas de nuestros sistemas operativos.

    Japanese Ocr 4 related to Ejecutar el proyecto
  • Haga clic en el botón "Seleccionar imagen" y seleccione la imagen que contiene el texto en japonés.

    Japanese Ocr 5 related to Ejecutar el proyecto
  • Verá el texto de la imagen de salida en el cuadro de texto enriquecido.

    Japanese Ocr 6 related to Ejecutar el proyecto
  • Se guardará un archivo de texto del resultado del OCR con "JapaneseText".
    Japanese Ocr 7 related to Ejecutar el proyecto

    La precisión de OCR de IronOCR es excelente.

Resumen

En este tutorial, hemos aprendido a utilizar la biblioteca IronOCR para texto japonés. Si desea saber más sobre IronOCR, haga clic aquí enlace.

Para más información sobre Iron Software, haga clic aquí enlace. Si desea probar la biblioteca IronOCR, puede activar la versión de prueba gratuita sin realizar ningún pago. Iron Software ofrece actualmente una oferta especial por la que puede adquirir un paquete de cinco productos de software por el precio de sólo dos. Para más información, pulse aquí.