Cómo utilizar varios idiomas con Tesseract
En el ámbito del reconocimiento óptico de caracteres (OCR) IronOCR es una herramienta conocida por su capacidad para extraer texto de varios idiomas y alfabetos. Utilizamos el motor Tesseract para ofrecer una herramienta de OCR fiable y fácil de usar.
En este artículo, veremos cómo IronOCR maneja eficazmente texto en varios idiomas, gracias a Tesseract. Tanto si es usted un desarrollador experimentado en busca de una solución OCR multilingüe fiable como si simplemente siente curiosidad por saber cómo funciona, este artículo le ayudará a comprender IronOCR y su motor Tesseract, arrojando luz sobre las capacidades de esta valiosa herramienta.
Cómo utilizar varios idiomas con Tesseract
- Descargar una biblioteca de C# para leer varios idiomas
- Preparar el documento PDF y la imagen para su lectura
- Instalar paquete de idioma adicional a través de NuGet
- Utiliza el
AddSecondaryIdioma
para activar las lenguas deseadas - Fije el Idioma para cambiar el idioma por defecto
Instalar con NuGet
Install-Package IronOcr
Ejemplo de lectura de PDF en varios idiomas
IronOcr proporciona alrededor de 125 paquetes de idiomas, sin embargo, sólo el Inglés se instala por defecto, el resto se puede descargar desde NuGet. Puede consultar todas las paquetes de idiomas aquí..
En el siguiente ejemplo le mostraré el código para utilizar múltiples idiomas en IronOcr para extraer texto de un archivo PDF.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instanciar IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Establecer el idioma secundario en ruso
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Añadir PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Realizar OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Envía el texto extraído a la consola
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instanciar IronTesseract
Private ocrTesseract As New IronTesseract()
' Establecer el idioma secundario en ruso
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Añadir PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Realizar OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Envía el texto extraído a la consola
Console.WriteLine(result.Text)
Puede añadir cualquier número de idiomas secundarios utilizando el método AddSecondaryLanguage
. Sin embargo, tenga en cuenta que esta adición puede afectar a la velocidad y el rendimiento. La prioridad de la lengua depende del orden en que se añada, teniendo mayor prioridad la primera que se añada.
Ejemplo de lectura de imágenes en varios idiomas
Por defecto, el idioma principal es el inglés. Para cambiar el idioma principal, establezca la propiedad Idioma en el idioma deseado. Después, también puedes añadir lenguas secundarias.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;
// Instanciar IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Establecer el idioma principal en hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Añadir imagen
using var imageInput = new OcrImageInput(@"example.png");
// Realizar OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Envía el texto extraído a la consola
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instanciar IronTesseract
Private ocrTesseract As New IronTesseract()
' Establecer el idioma principal en hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Añadir imagen
Dim imageInput = New OcrImageInput("example.png")
' Realizar OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Envía el texto extraído a la consola
Console.WriteLine(result.Text)
Si lo haces bien, puedes esperar resultados como los que se muestran a continuación.
Conclusión
En resumen, IronOCR, respaldado por el potente motor Tesseract, destaca en la extracción de texto de documentos en varios idiomas. Es una herramienta indispensable para manejar las complejidades de la lectura de texto en muchos idiomas, y ofrece a desarrolladores y mentes curiosas una solución versátil. Tanto si procesa PDF con texto en varios idiomas como si trabaja con contenido multilingüe en imágenes, IronOCR simplifica la tarea de reconocer y extraer texto en varios idiomas.