VíDEOS

Cómo utilizar varios idiomas con Tesseract

Kannaopat Udonpant
Kannapat Udonpant
17 de marzo, 2025
Compartir:


Este tutorial proporciona una guía completa sobre el uso de Tesseract junto con IronOCR para reconocer texto en varios idiomas de archivos PDF e imágenes. Primero, asegúrese de que IR OCR y los paquetes de idiomas necesarios estén instalados en su proyecto utilizando el gestor de paquetes Nouget. Comience importando los espacios de nombres necesarios y configurando IronOCR con una clave de licencia válida para desbloquear sus capacidades completas. Instanciar el objeto IronOCR Tesseract para realizar reconocimiento óptico de caracteres, utilizando inicialmente el inglés como idioma predeterminado. Para agregar soporte para idiomas adicionales, como el ruso, utiliza el método 'add secondary language'.

Cargue un archivo PDF llamado 'example.PDF' con texto en varios idiomas utilizando la clase de entrada OCR PDF. Realizar OCR para extraer el contenido de texto, almacenando los resultados en un objeto designado. Para asegurar la visualización precisa de caracteres multilingües, establezca la codificación de salida de la consola en Unicode antes de imprimir el texto extraído en la consola.

Además, ajuste el idioma principal a ruso y añada japonés como idioma secundario. Esta modificación facilita el reconocimiento de texto tanto en ruso como en japonés. Carga un archivo de imagen, 'example.png', que contiene texto multilingüe usando la clase de entrada de imagen OCR, y ejecuta el OCR con la configuración de idioma configurada. Almacene el resultado e imprima el texto extraído de la imagen en la consola.

Al seguir estos pasos, puede extraer y reconocer fácilmente texto en inglés, ruso y japonés de varios tipos de archivos. Este tutorial destaca la efectividad de usar múltiples idiomas con Tesseract y IronOCR, haciendo que sea sencillo procesar texto multilingüe en PDFs e imágenes. Para más tutoriales y para comenzar a usar IronOCR, suscríbase a Iron Software y considere registrarse para una prueba.

Lectura adicional: Cómo usar varios idiomas con Tesseract

Comience con IronOCR ahora.
green arrow pointer

Kannaopat Udonpant
Ingeniero de software
Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.
< ANTERIOR
Cómo utilizar los paquetes de idiomas OCR en IronOCR
SIGUIENTE >
Cómo extraer texto de un archivo de imagen