Cómo utilizar varios idiomas con Tesseract
En el ámbito del reconocimiento óptico de caracteres(OCR) IronOCR es una herramienta conocida por su capacidad para extraer texto de varios idiomas y alfabetos. Utilizamos el motor Tesseract para ofrecer una herramienta de OCR fiable y fácil de usar.
En este artículo, veremos cómo IronOCR maneja eficazmente texto en varios idiomas, gracias a Tesseract. Tanto si es usted un desarrollador experimentado en busca de una solución OCR multilingüe fiable como si simplemente siente curiosidad por saber cómo funciona, este artículo le ayudará a comprender IronOCR y su motor Tesseract, arrojando luz sobre las capacidades de esta valiosa herramienta.
Comience con IronOCR
Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.
Cómo utilizar varios idiomas con Tesseract
- Descargar una biblioteca de C# para leer varios idiomas
- Preparar el documento PDF y la imagen para su lectura
- Instalar paquete de idioma adicional a través de NuGet
- Utiliza el
AddSecondaryLanguage
para activar las lenguas deseadas - Fije el Idioma para cambiar el idioma por defecto
Ejemplo de lectura de PDF en varios idiomas
IronOcr proporciona alrededor de 125 paquetes de idiomas, sin embargo, sólo el Inglés se instala por defecto, el resto se puede descargar desde NuGet. Puede consultar todas laspaquetes de idiomas aquí..
En el siguiente ejemplo le mostraré el código para utilizar múltiples idiomas en IronOcr para extraer texto de un archivo PDF.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
Puede añadir cualquier número de idiomas secundarios utilizando el método AddSecondaryLanguage
. Sin embargo, tenga en cuenta que esta adición puede afectar a la velocidad y el rendimiento. La prioridad de la lengua depende del orden en que se añada, teniendo mayor prioridad la primera que se añada.
Ejemplo de lectura de imágenes en varios idiomas
Por defecto, el idioma principal es el inglés. Para cambiar el idioma principal, establezca la propiedad Idioma en el idioma deseado. Después, también puedes añadir lenguas secundarias.
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
Si lo haces bien, puedes esperar resultados como los que se muestran a continuación.
Conclusión
En resumen, IronOCR, respaldado por el potente motor Tesseract, destaca en la extracción de texto de documentos en varios idiomas. Es una herramienta indispensable para manejar las complejidades de la lectura de texto en muchos idiomas, y ofrece a desarrolladores y mentes curiosas una solución versátil. Tanto si procesa PDF con texto en varios idiomas como si trabaja con contenido multilingüe en imágenes, IronOCR simplifica la tarea de reconocer y extraer texto en varios idiomas.