OCR chino en C# y .NET
Otras versiones de este documento:
IronOCR es un componente de software C# que permite a los codificadores .NET leer texto de imágenes y documentos PDF en 126 idiomas, incluido el chino. El Paquete de Idioma Chino contiene caracteres tanto en chino simplificado como en chino tradicional.
Es una derivación avanzada de Tesseract, construida exclusivamente para desarrolladores de .NET, y supera regularmente a otros motores de Tesseract tanto en velocidad como en precisión. La biblioteca permite el reconocimiento de imágenes y documentos de diferentes formatos en varios idiomas, incluido el chino. Admite más de 125 idiomas y ofrece un alto nivel de precisión en el reconocimiento en comparación con la competencia. La API de IronOCR ha sido diseñada pensando en la extensibilidad y la personalización. Puede ayudar a IronOCR a lograr un alto rendimiento y precisión agregando sus datos de ajuste o funciones al rastreador. IronOCR utiliza muchas técnicas de reconocimiento óptico de caracteres. Podemos usarlo en una PC con Windows, Linux, macOS y otras plataformas famosas.
Contenido de IronLOC.Languages.Chinese
Este paquete contiene 352 idiomas de OCR para .NET:
- ChineseSimplified
- ChineseSimplifiedBest
- ChineseSimplifiedFast
- ChineseSimplifiedVertical
- ChineseSimplifiedVerticalBest
- ChineseSimplifiedVerticalFast
- ChineseTraditional
- ChineseTraditionalBest
- ChineseTraditionalFast
- ChineseTraditionalVertical
- ChineseTraditionalVerticalBest
- ChineseTraditionalVerticalFast
Descargar
Podemos descargar el Paquete de Idioma Chino [中文 (Zhōngwén)] desde los siguientes enlaces:
Uso de IronOCR para el idioma chino
Crear o abrir un proyecto de C
Para comenzar con IronOCR, tenemos que crear un proyecto C# .NET. Estamos usando Visual Studio 2022 para este propósito. Puede elegir una versión según sus necesidades. Se recomienda la última versión de Visual Studio para una experiencia fluida. Crearemos una interfaz GUI para seleccionar la imagen. También podemos utilizar IronOCR en una aplicación de consola proporcionando la ruta directa de la imagen. Implementa los siguientes pasos para crear un proyecto en C# en Visual Studio 2022:
- Abre Visual Studio 2022.
- Haga clic en el botón "Crear un nuevo proyecto".

- Escriba "Windows" en la barra de búsqueda, seleccione la "Aplicación de Windows Form" de los resultados de búsqueda y haga clic en el botón "Siguiente".

- Da un nombre al proyecto. Estoy asignando el nombre "ChineseOCR" al proyecto. Después del nombre, haga clic en el botón "Siguiente".

- Seleccione el .NET framework en la siguiente pantalla. Seleccione el .NET framework según las necesidades de su proyecto. Estamos seleccionando la versión .NET 5.0 para este tutorial.

- Después de seleccionar, haz clic en el botón "Create". Creará fácilmente el proyecto de C# Windows Form en Visual Studio.
El proyecto ha sido creado y ahora está listo para usarse en la biblioteca IronOCR. También podemos utilizar el proyecto C# ya existente. Abra el proyecto e inicie la instalación de la biblioteca IronOCR. La siguiente sección explorará los métodos para instalar la biblioteca IronOCR en proyectos de C#.
Instalación
Uso del Administrador de paquetes NuGet
Para instalar la biblioteca IronOCR con el Administrador de Paquetes NuGet, debemos abrir la interfaz del Administrador de Paquetes NuGet. Siga los siguientes pasos para instalar la biblioteca IronOCR:
- Haga clic en "Herramientas" en el menú principal, en el menú desplegable, coloque el cursor sobre "Administrador de paquetes NuGet" y seleccione "Administrar administrador de paquetes NuGet para la solución".

- Esto abrirá la interfaz del Administrador de Paquetes NuGet. Vaya a la pestaña de exploración y busque IronOCR chino. Seleccione el paquete correcto de los resultados de búsqueda y haga clic en el botón "Instalar" para instalarlo.

*Comenzará a instalar la biblioteca. Después de la instalación, podrás usar la biblioteca IronOCR en tu proyecto.
Uso de la consola del administrador de paquetes
Usar una consola siempre es una opción fácil. También podemos instalar la biblioteca IronOCR usando la consola del administrador de paquetes. Siga los pasos indicados para instalar la biblioteca IronOCR:
- Abre la Consola del Administrador de Paquetes en Visual Studio. Normalmente se encuentra en la parte inferior de Visual Studio.
Escribe el siguiente comando en la consola:
Install-Package IronOCR.Languages.Chinese
- Verás el progreso de la instalación de la biblioteca en la consola. Instalará la biblioteca automáticamente. Después de la instalación, nuestro proyecto estará listo para la biblioteca IronOCR.
Ejemplo de código: OCR para el idioma chino
Ahora es el momento de escribir el código para implementar la biblioteca IronOCR para el idioma chino. Primero, debemos desarrollar la interfaz para seleccionar el archivo de imagen. Veamos cómo hacerlo.
Desarrollo del frontend
Usaremos los elementos del "Toolbox" para diseñar el frente. Crearemos un botón, un cuadro de imagen, un cuadro de texto enriquecido y dos etiquetas. Arrastraremos y soltaremos estos elementos desde la Caja de herramientas y los colocaremos en el formulario de ventana. Gestionaremos estos elementos con estilo.
El botón se utilizará para seleccionar el archivo de imagen de la PC. Picture Box cargará el archivo de imagen seleccionado y Rich Textbox mostrará el texto de salida. Puede ajustar el tamaño de cada elemento según sus necesidades. El diseño final del frontend se verá así:

Esta ventana aparecerá cuando ejecutes el proyecto. Hemos establecido la alineación de las ventanas para que se formen en el centro de la pantalla. Entonces esta pantalla aparecerá en el centro.
Nuestro frontend está listo. A continuación, es el momento de agregar la funcionalidad de backend del botón.
Código backend para IronOCR
Primero tenemos que importar el espacio de nombres IronOCR para usarlo en nuestro código. Escriba la siguiente línea en la parte superior del archivo:
using IronOCR;using IronOCR;Usaremos el botón "Seleccionar imagen" para seleccionar la imagen y cargarla en el Cuadro de imagen. IronOCR procesará la imagen de texto simplificado en chino y mostrará el texto de salida en el cuadro de texto enriquecido. Agreguemos la funcionalidad del botón haciendo doble clic en el botón. Escriba las siguientes líneas de código para agregar la funcionalidad descrita:
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
LOC.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
var Result = LOC.Read(Input);
txt_output.Text = Result.Text;
}
}
}private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
LOC.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
var Result = LOC.Read(Input);
txt_output.Text = Result.Text;
}
}
}Cuando un usuario haga clic en el botón, aparecerá un cuadro de diálogo para seleccionar la imagen. Cuando el usuario selecciona la imagen, ésta se cargará automáticamente en el cuadro de imagen. Utilizamos Bitmap() para imprimir imágenes en el cuadro de imagen. Después de eso, IronOCR convertirá las imágenes en texto chino. Establecimos LOC. Idioma al chino tradicional para reconocer texto en chino tradicional. LOC. La función de lectura leerá el proceso y almacenará el resultado del OCR en la variable Resultado. Si necesita guardar el texto en formato PDF, texto o HTML, utilizará la función Guardar como para guardar el archivo en cualquier formato de salida que desee: IronOCR admite múltiples formatos de salida.
Ejecutar el proyecto
Ahora es el momento de ejecutar el proyecto. Haz clic en el botón Ejecutar en Visual Studio. Veremos esta pantalla en nuestra pantalla.

Haz clic en el botón "Select Image". Se abrirá el cuadro de diálogo Seleccionar archivos. Seleccione un archivo de imagen y presione Enter.

Lo cargará en el cuadro de imagen, escaneará automáticamente la imagen y mostrará el resultado en el cuadro de texto.

Esta es la salida de la imagen que seleccionamos. IronOCR también admite la lectura y el escaneo de archivos PDF. Podemos utilizar el formato editable de archivos PDF para escanear y reconocer texto usando IronOCR. Esto también se puede hacer en diferentes idiomas. IronOCR puede convertir el documento PDF existente en un PDF con capacidad de búsqueda. IronOCR tiene muchos filtros de imagen para que las imágenes sean más claras de ver y comprender. Aquí están los filtros:
- Entrada.Binarize()
- Entrada.Contraste()
- Entrada.Descew()
- Entrada.DeNoise()
- Entrada.Dilatar()
- Entrada.EnhanceResolution(300)
Todas estas funciones aumentan la visibilidad de los personajes. IronOCR utiliza estas funciones para borrar y crear un PDF que permita realizar búsquedas. Veamos cómo se puede hacer esto:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf")
// clean up twisted pages
Input.Deskew();
var Result = LOC.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf")
// clean up twisted pages
Input.Deskew();
var Result = LOC.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}Licencias
IronOCR es gratuito para el desarrollo. Podrás utilizar activamente todas sus funciones de forma gratuita. IronOCR también ofrece una prueba gratuita para producción sin necesidad de pago alguno. Iron Software también ofrece actualmente una oferta popular: un paquete de cinco productos de software por el precio de solo dos. Simplemente pague la tarifa de dos productos de software una sola vez y podrá obtener los cinco productos, incluidos IronPDF e IronXL. Puede encontrar más información sobre licencias en este enlace .





