Cómo utilizar varios idiomas con Tesseract

por Chipego Kalinda

En el ámbito del reconocimiento óptico de caracteres (OCR) IronOCR es una herramienta conocida por su capacidad para extraer texto de varios idiomas y alfabetos. Utilizamos el motor Tesseract para ofrecer una herramienta de OCR fiable y fácil de usar.

En este artículo, veremos cómo IronOCR maneja eficazmente texto en varios idiomas, gracias a Tesseract. Tanto si es usted un desarrollador experimentado en busca de una solución OCR multilingüe fiable como si simplemente siente curiosidad por saber cómo funciona, este artículo le ayudará a comprender IronOCR y su motor Tesseract, arrojando luz sobre las capacidades de esta valiosa herramienta.


Biblioteca NuGet C# para OCR

Instalar con NuGet

Install-Package IronOcr
o
Java PDF JAR

Descargar DLL

Descargar DLL

Instalar manualmente en su proyecto

Ejemplo de lectura de PDF en varios idiomas

IronOcr proporciona alrededor de 125 paquetes de idiomas, sin embargo, sólo el Inglés se instala por defecto, el resto se puede descargar desde NuGet. Puede consultar todas las paquetes de idiomas aquí..

En el siguiente ejemplo le mostraré el código para utilizar múltiples idiomas en IronOcr para extraer texto de un archivo PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

//  Instanciar IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

//  Establecer el idioma secundario en ruso
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

//  Añadir PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
//  Realizar OCR
OcrResult result = ocrTesseract.Read(pdfInput);

//  Envía el texto extraído a la consola
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

'  Instanciar IronTesseract
Private ocrTesseract As New IronTesseract()

'  Establecer el idioma secundario en ruso
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

'  Añadir PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
'  Realizar OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

'  Envía el texto extraído a la consola
Console.WriteLine(result.Text)
VB   C#

Puede añadir cualquier número de idiomas secundarios utilizando el método AddSecondaryLanguage. Sin embargo, tenga en cuenta que esta adición puede afectar a la velocidad y el rendimiento. La prioridad de la lengua depende del orden en que se añada, teniendo mayor prioridad la primera que se añada.

Ejemplo de lectura de imágenes en varios idiomas

Por defecto, el idioma principal es el inglés. Para cambiar el idioma principal, establezca la propiedad Idioma en el idioma deseado. Después, también puedes añadir lenguas secundarias.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

//  Instanciar IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

//  Establecer el idioma principal en hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

//  Añadir imagen
using var imageInput = new OcrImageInput(@"example.png");
//  Realizar OCR
OcrResult result = ocrTesseract.Read(imageInput);

//  Envía el texto extraído a la consola
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

'  Instanciar IronTesseract
Private ocrTesseract As New IronTesseract()

'  Establecer el idioma principal en hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

'  Añadir imagen
Dim imageInput = New OcrImageInput("example.png")
'  Realizar OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

'  Envía el texto extraído a la consola
Console.WriteLine(result.Text)
VB   C#

Si lo haces bien, puedes esperar resultados como los que se muestran a continuación.

Ruso y japonés

Conclusión

En resumen, IronOCR, respaldado por el potente motor Tesseract, destaca en la extracción de texto de documentos en varios idiomas. Es una herramienta indispensable para manejar las complejidades de la lectura de texto en muchos idiomas, y ofrece a desarrolladores y mentes curiosas una solución versátil. Tanto si procesa PDF con texto en varios idiomas como si trabaja con contenido multilingüe en imágenes, IronOCR simplifica la tarea de reconocer y extraer texto en varios idiomas.

Chipego

Ingeniero de software

Chipego tiene una habilidad natural para escuchar que le ayuda a comprender los problemas de los clientes y a ofrecer soluciones inteligentes. Se unió al equipo de Iron Software en 2023, después de estudiar una licenciatura en Tecnología de la Información. IronPDF e IronOCR son los dos productos en los que Chipego se ha centrado, pero su conocimiento de todos los productos crece día a día, a medida que encuentra nuevas formas de ayudar a los clientes. Disfruta de lo colaborativa que es la vida en Iron Software, con miembros del equipo de toda la empresa que aportan su variada experiencia para contribuir a soluciones eficaces e innovadoras. Cuando Chipego está lejos de su escritorio, a menudo se le puede encontrar disfrutando de un buen libro o jugando al fútbol.