Cómo utilizar varios idiomas con Tesseract

Kannaopat Udonpant
Kannapat Udonpant
25 de octubre, 2023
Actualizado 10 de diciembre, 2024
Compartir:
This article was translated from English: Does it need improvement?
Translated
View the article in English

En el ámbito de la tecnología de Reconocimiento Óptico de Caracteres (OCR), IronOCR es una herramienta bien considerada, conocida por su capacidad para extraer texto de varios idiomas y escrituras. Usamos el motor Tesseract para proporcionar una herramienta OCR confiable y fácil de usar.

En este artículo, veremos cómo IronOCR maneja eficazmente texto en varios idiomas, gracias a Tesseract. Tanto si es usted un desarrollador experimentado en busca de una solución OCR multilingüe fiable como si simplemente siente curiosidad por saber cómo funciona, este artículo le ayudará a comprender IronOCR y su motor Tesseract, arrojando luz sobre las capacidades de esta valiosa herramienta.

Comience con IronOCR

Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.

Primer Paso:
green arrow pointer



Ejemplo de lectura de PDF en varios idiomas

IronOcr proporciona alrededor de 125 paquetes de idiomas, sin embargo, sólo el Inglés se instala por defecto, el resto se puede descargar desde NuGet. Puedes echar un vistazo a todos los paquetes de idiomas disponibles aquí..

En el siguiente ejemplo le mostraré el código para utilizar múltiples idiomas en IronOcr para extraer texto de un archivo PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Puede agregar cualquier número de idiomas secundarios utilizando el método AddSecondaryLanguage. Sin embargo, tenga en cuenta que esta adición puede afectar a la velocidad y el rendimiento. La prioridad de la lengua depende del orden en que se añada, teniendo mayor prioridad la primera que se añada.

Ejemplo de lectura de imágenes en varios idiomas

Por defecto, el idioma principal es el inglés. Para cambiar el idioma principal, establezca la propiedad Language al idioma deseado. Después, también puedes añadir lenguas secundarias.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Si lo haces bien, puedes esperar resultados como los que se muestran a continuación.

Ruso y japonés

Conclusión

En resumen, IronOCR, respaldado por el potente motor Tesseract, destaca en la extracción de texto de documentos en varios idiomas. Es una herramienta indispensable para manejar las complejidades de la lectura de texto en muchos idiomas, y ofrece a desarrolladores y mentes curiosas una solución versátil. Tanto si procesa PDF con texto en varios idiomas como si trabaja con contenido multilingüe en imágenes, IronOCR simplifica la tarea de reconocer y extraer texto en varios idiomas.

Kannaopat Udonpant
Ingeniero de software
Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.