OCR chino en C# y .NET

Otras versiones de este documento: 简体中文版 125 idiomas más de OCR

IronOCR es un componente de software C# que permite a los programadores .NET leer texto de imágenes y documentos PDF en 126 idiomas, incluido el chino. El paquete de idioma chino contiene caracteres chinos simplificados y tradicionales.

Se trata de una bifurcación avanzada de Tesseract, creada exclusivamente para desarrolladores .NET, que suele superar a otros motores Tesseract en velocidad y precisión. La biblioteca permite reconocer imágenes y documentos de distintos formatos en varios idiomas, incluido el chino. Es compatible con más de 125 idiomas y ofrece un alto nivel de precisión de reconocimiento en comparación con la competencia. La API de IronOCR se ha diseñado pensando en la extensibilidad y la personalización. Puede ayudar a IronOCR a lograr un alto rendimiento y precisión añadiendo sus datos de ajuste o características al rastreador. IronOCR utiliza numerosas técnicas de reconocimiento óptico de caracteres. Podemos utilizarlo en un PC con Windows, Linux, macOS y otras plataformas famosas.

Contenidos de IronOcr.Languages.Chinese

Este paquete contiene 352 lenguajes OCR para .NET:

  • ChinoSimplificado
  • ChinoSimplificadoMejor
  • ChinoSimplificadoRápido
  • ChinoSimplificadoVertical
  • ChinoSimplificadoVerticalMejor
  • ChinoSimplificadoVerticalRápido
  • ChinoTradicional
  • ChinoTradicionalMejor
  • ChinoTradicionalRápido
  • ChinoTradicionalVertical
  • ChinoTradicionalVerticalMejor
  • ChinoTradicionalVerticalRápido

Descargar

Podemos descargar el paquete de idioma chino [中文(Zhōngwén)] desde los siguientes enlaces:

Uso de IronOCR para el idioma chino

Crear o abrir un proyecto C#

Para empezar con IronOCR, tenemos que crear un proyecto C# .NET. Para ello utilizamos Visual Studio 2022. Puede elegir una versión en función de sus necesidades. Se recomienda utilizar la última versión de Visual Studio para disfrutar de una experiencia sin problemas. Crearemos una interfaz GUI para seleccionar la imagen. También podemos utilizar IronOCR en una aplicación de consola dando la ruta directa de la imagen. Siga los siguientes pasos para crear un proyecto C# en Visual Studio 2022:

  • Abre Visual Studio 2022.
  • Haga clic en el botón "Crear un nuevo proyecto".
  • Escriba "Windows" en la barra de búsqueda, seleccione la aplicación "Windows Form " de los resultados de la búsqueda y pulse el botón "Siguiente".
  • Dale un nombre al proyecto. Asigno el nombre "ChineseOCR " al proyecto. Después del nombre, haga clic en el botón "Siguiente".
  • Seleccione el marco .NET en la siguiente pantalla. Seleccione el marco .NET en función de las necesidades de su proyecto. Estamos seleccionando la versión .NET 5.0 para este tutorial.
  • Después de seleccionar, haga clic en el botón "Crear". Creará fácilmente el proyecto C# Windows Form en Visual Studio.

El proyecto ha sido creado, y ahora está listo para ser utilizado en la biblioteca IronOCR. También podemos utilizar el proyecto C# ya existente. Abra el proyecto e inicie la instalación de la biblioteca IronOCR. La siguiente sección explorará los métodos para instalar la librería IronOCR en proyectos C#.

Instalación

Uso del gestor de paquetes NuGet

Para instalar la biblioteca IronOCR con NuGet Package Manager, debemos abrir la interfaz de NuGet Package Manager. Siga los siguientes pasos para instalar la biblioteca IronOCR:

  • Haga clic en "Herramientas" en el menú principal, en el menú desplegable, coloque el cursor sobre "NuGet Package Manager" y seleccione la opción "Administrar NuGet Package Manager para la solución".
  • Se abrirá la interfaz del Gestor de paquetes NuGet. Vaya a la pestaña Examinar y busque IronOCR Chinese. Seleccione el paquete adecuado en los resultados de la búsqueda y haga clic en el botón "Instalar" para instalarlo.
  • Comenzará la instalación de la biblioteca. Tras la instalación, podrá utilizar la biblioteca IronOCR en su proyecto.

Uso de la consola del gestor de paquetes

Utilizar una consola es siempre una opción fácil. También podemos instalar la biblioteca IronOCR utilizando la consola del gestor de paquetes. Siga los pasos indicados para instalar la biblioteca IronOCR:

  • Abra la consola del gestor de paquetes en Visual Studio. Suele encontrarse en la parte inferior de Visual Studio.

  • Escribe el siguiente comando en la consola:
Install-Package IronOCR.Languages.Chinese
  • Verá el progreso de la instalación de la biblioteca en la consola. La biblioteca se instalará automáticamente. Después de la instalación, nuestro proyecto estará listo para la biblioteca IronOCR.

Ejemplo de código: OCR para el idioma chino

Ahora, es el momento de escribir el código para implementar la biblioteca IronOCR para el idioma chino. En primer lugar, tenemos que desarrollar el frontend para seleccionar el archivo de imagen. Echemos un vistazo a cómo podemos hacer esto.

Desarrollo del frontend

Utilizaremos los elementos de la "Caja de herramientas" para diseñar la fachada. Crearemos un botón, un cuadro de imagen, un cuadro de texto enriquecido y dos etiquetas. Arrastraremos y soltaremos estos elementos desde la caja de herramientas y los colocaremos en el formulario de windows. Gestionaremos estos elementos con estilo.

El botón se utilizará para seleccionar el archivo de imagen del PC. Picture Box cargará el archivo de imagen seleccionado, y Rich Textbox mostrará el texto de salida. Puede ajustar el tamaño de cada elemento según sus necesidades. El diseño final del frontend tendrá este aspecto:

Esta ventana aparecerá cuando ejecute el proyecto. Hemos configurado la alineación de las ventanas para que se formen en el centro de la pantalla. Entonces, esta pantalla aparecerá en el centro.

Nuestro frontend está listo. A continuación, es hora de añadir la funcionalidad backend del botón.

Código backend para IronOCR

Primero tenemos que importar el espacio de nombres IronOCR para utilizarlo en nuestro código. Escriba la siguiente línea en la parte superior del archivo:

using IronOCR;
using IronOCR;
Imports IronOCR
VB   C#

Utilizaremos el botón "Seleccionar imagen" para seleccionar la imagen y cargarla en el cuadro de imagen. IronOCR procesará la imagen de texto chino simplificado y mostrará el texto de salida en el cuadro de texto enriquecido. Añadamos la funcionalidad del botón haciendo doble clic sobre el botón. Escribe las siguientes líneas de código para añadir la funcionalidad descrita:

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // mostrar imagen en cuadro de imagen
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // mostrar imagen en cuadro de imagen
        img_image.Image = new Bitmap(open.FileName);

        var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.ChineseTraditional;

using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;
        }
    }
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

Cuando un usuario pulse el botón, aparecerá un cuadro de diálogo para seleccionar la imagen. Cuando el usuario seleccione la imagen, ésta se cargará automáticamente en el cuadro de imagen. Utilizamos Bitmap() para imprimir imágenes en el cuadro de imagen. Después, IronOCR convertirá las imágenes en texto chino. Fijamos Ocr. Idioma a ChineseTraditional para reconocer texto en chino tradicional. Ocr. La función de lectura leerá el proceso y almacenará el resultado del OCR en la variable Resultado. Si necesita guardar el texto en formato PDF, texto o HTML, utilizará la función SaveAs para guardar el archivo en cualquier formato de salida que desee - IronOCR soporta múltiples formatos de salida.

Ejecutar el proyecto

Ahora es el momento de ejecutar el proyecto. Haga clic en el botón Ejecutar de Visual Studio. Veremos esta pantalla en nuestra pantalla.

Haga clic en el botón "Seleccionar imagen". Se abrirá el cuadro de diálogo Seleccionar archivos. Selecciona un archivo de imagen y pulsa intro.

Lo cargará en el cuadro de imagen, escaneará automáticamente la imagen y mostrará el resultado en el cuadro de texto.

Esta es la salida de la imagen que seleccionamos. IronOCR también permite leer y escanear archivos PDF. Podemos utilizar el formato editable de los archivos PDF para escanear y reconocer texto mediante IronOCR. Esto también puede hacerse en diferentes idiomas. IronOCR puede convertir el documento PDF existente en un PDF con capacidad de búsqueda. IronOCR tiene muchos filtros de imagen para que las imágenes sean claras de ver y entender. Aquí están los filtros:

  • Input.Binarize()
  • Contraste.de.entrada()
  • Input.Deskew()
  • Input.DeNoise()
  • Input.Dilate()
  • Input.MejorarResolución(300)

Todas estas funciones aumentan la visibilidad de los personajes. IronOCR utiliza estas funciones para limpiar y crear un PDF en el que se puedan realizar búsquedas. Veamos cómo hacerlo:

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // limpiar páginas retorcidas
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf")
    // limpiar páginas retorcidas
    Input.Deskew();
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

Licencias

IronOCR es gratuito para el desarrollo. Puedes utilizar activamente todas sus funciones de forma gratuita. IronOCR también ofrece un prueba gratuita para la producción sin necesidad de pago alguno. Iron Software también ofrece actualmente una oferta muy popular: un paquete de cinco productos de software por el precio de sólo dos. Sólo tiene que pagar la cuota de dos productos de software una vez y podrá obtener los cinco productos, incluidos IronPDF y IronXL. Puede encontrar más información en enlace sobre licencias.