Cómo utilizar varios idiomas con Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

por Chipego Kalinda

En el ámbito del reconocimiento óptico de caracteres (OCR) IronOCR es una herramienta conocida por su capacidad para extraer texto de varios idiomas y alfabetos. Utilizamos el motor Tesseract para ofrecer una herramienta de OCR fiable y fácil de usar.

En este artículo, veremos cómo IronOCR maneja eficazmente texto en varios idiomas, gracias a Tesseract. Tanto si es usted un desarrollador experimentado en busca de una solución OCR multilingüe fiable como si simplemente siente curiosidad por saber cómo funciona, este artículo le ayudará a comprender IronOCR y su motor Tesseract, arrojando luz sobre las capacidades de esta valiosa herramienta.


Biblioteca NuGet C# para OCR

Instalar con NuGet

Install-Package IronOcr
o
Java PDF JAR

Descargar DLL

Descargar DLL

Instalar manualmente en su proyecto

Ejemplo de lectura de PDF en varios idiomas

IronOcr proporciona alrededor de 125 paquetes de idiomas, sin embargo, sólo el Inglés se instala por defecto, el resto se puede descargar desde NuGet. Puede consultar todas las paquetes de idiomas aquí..

En el siguiente ejemplo le mostraré el código para utilizar múltiples idiomas en IronOcr para extraer texto de un archivo PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

Puede añadir cualquier número de idiomas secundarios utilizando el método AddSecondaryLanguage. Sin embargo, tenga en cuenta que esta adición puede afectar a la velocidad y el rendimiento. La prioridad de la lengua depende del orden en que se añada, teniendo mayor prioridad la primera que se añada.

Ejemplo de lectura de imágenes en varios idiomas

Por defecto, el idioma principal es el inglés. Para cambiar el idioma principal, establezca la propiedad Idioma en el idioma deseado. Después, también puedes añadir lenguas secundarias.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

Si lo haces bien, puedes esperar resultados como los que se muestran a continuación.

Ruso y japonés

Conclusión

En resumen, IronOCR, respaldado por el potente motor Tesseract, destaca en la extracción de texto de documentos en varios idiomas. Es una herramienta indispensable para manejar las complejidades de la lectura de texto en muchos idiomas, y ofrece a desarrolladores y mentes curiosas una solución versátil. Tanto si procesa PDF con texto en varios idiomas como si trabaja con contenido multilingüe en imágenes, IronOCR simplifica la tarea de reconocer y extraer texto en varios idiomas.

Chipego

Ingeniero de software

Chipego tiene una habilidad natural para escuchar que le ayuda a comprender los problemas de los clientes y a ofrecer soluciones inteligentes. Se unió al equipo de Iron Software en 2023, después de estudiar una licenciatura en Tecnología de la Información. IronPDF e IronOCR son los dos productos en los que Chipego se ha centrado, pero su conocimiento de todos los productos crece día a día, a medida que encuentra nuevas formas de ayudar a los clientes. Disfruta de lo colaborativa que es la vida en Iron Software, con miembros del equipo de toda la empresa que aportan su variada experiencia para contribuir a soluciones eficaces e innovadoras. Cuando Chipego está lejos de su escritorio, a menudo se le puede encontrar disfrutando de un buen libro o jugando al fútbol.