Cómo utilizar varios idiomas con Tesseract en C

Actualizado:20 de enero de 2026

Translated

View the article in English

IronOCR permite la extracción de texto de documentos en varios idiomas utilizando el motor Tesseract mediante la configuración de idiomas primarios y secundarios con una sola línea de código, y admite más de 125 paquetes de idiomas para un procesamiento OCR multilingüe sin problemas.

Introducción

IronOCR proporciona extracción de texto de varios lenguajes y scripts utilizando Tesseract Engine como herramienta OCR fiable.

Este artículo explora cómo IronOCR gestiona texto en varios idiomas a través de Tesseract. Aprenderás a implementar soluciones OCR multilingües y a comprender las capacidades de IronOcr y su integración con el motor Tesseract.

El procesamiento de documentos en varios idiomas es esencial para las aplicaciones modernas. Los documentos comerciales internacionales, los sitios web multilingües y las plataformas de comunicación globales requieren una extracción de texto precisa que supere las barreras lingüísticas. IronOCR aborda esta necesidad mediante la integración con la amplia compatibilidad lingüística de Tesseract, lo que permite la extracción de texto de documentos que contienen varias secuencias de comandos y conjuntos de caracteres simultáneamente.

Inicio rápido: uso de IronOCR para reconocer texto en varios idiomas

Configure IronOCR con un idioma principal y añada idiomas secundarios en una sola línea para extraer texto de documentos o imágenes multilingües.

Instala IronOCR con el Administrador de Paquetes NuGet
PM > Install-Package IronOcr

Copie y ejecute este fragmento de código.

string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;

Despliegue para probar en su entorno real

Comienza a usar IronOCR en tu proyecto hoy mismo con una prueba gratuita

Flujo de trabajo mínimo (5 pasos)

Descargue una biblioteca de C# para leer varios lenguajes
Prepare el documento PDF y la imagen para la lectura
Instalar paquetes de idiomas adicionales a través de NuGet
Utilice el método `AddSecondaryLanguage` para habilitar los idiomas deseados
Establezca la propiedad **`Language`** para cambiar el idioma predeterminado

¿Cómo leer archivos PDF en varios idiomas con IronOCR?

IronOcr ofrece unos 125 paquetes de idiomas; por defecto, sólo está instalado el inglés. Descargue otros idiomas de NuGet. Ver todos los paquetes de idiomas disponibles aquí..

Los PDF que contienen varios idiomas requieren una configuración específica del motor de OCR. IronOCR permite especificar los idiomas primario y secundario antes de procesar los documentos, lo que garantiza una precisión de reconocimiento óptima en diferentes alfabetos y conjuntos de caracteres.

¿Qué idiomas están disponibles para la extracción de PDF?

El siguiente ejemplo muestra cómo utilizar varios idiomas en IronOcr para extraer texto de un archivo PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);

$vbLabelText $csharpLabel

Para situaciones complejas de procesamiento de PDF, consulte nuestra guía sobre Extracción de texto de PDF OCR, que incluye técnicas avanzadas para diversos formatos y estructuras de PDF.

¿Cómo afecta la prioridad del idioma a los resultados del OCR?

Agregue cualquier cantidad de idiomas secundarios utilizando el método AddSecondaryLanguage. Tenga en cuenta que los idiomas adicionales pueden afectar a la velocidad y el rendimiento. La prioridad de los idiomas depende del orden en que se añadan, teniendo mayor prioridad el primero.

Comprender la prioridad lingüística es crucial a la hora de procesar documentos multilingües. El idioma principal recibe la máxima prioridad durante la extracción de texto: el motor de OCR intenta primero cotejar los caracteres con el conjunto de caracteres del idioma principal. Los idiomas secundarios se consultan cuando se encuentran caracteres que no coinciden con los patrones del idioma primario.

Para un rendimiento óptimo:

Establezca el idioma más común del documento como principal
Añadir idiomas secundarios ordenados por frecuencia en el documento
Limite los idiomas secundarios a los necesarios para su caso de uso

Para aplicaciones de alto rendimiento con varios idiomas, consulte nuestra guía Configuración rápida de OCR para optimizar la velocidad de procesamiento.

¿Cómo puedo procesar imágenes multilingües con Tesseract?

El inglés es el idioma principal por defecto. To change it, set the Language property to your desired language, then add secondary languages as needed.

Las imágenes que contienen texto multilingüe requieren una cuidadosa configuración. A diferencia de los PDF, las imágenes pueden contener orientaciones de texto variadas, fuentes diferentes y scripts mixtos. La integración de Tesseract de IronOCR proporciona opciones completas de configuración de idioma para estos escenarios.

¿Cuándo debo cambiar el idioma predeterminado?

Cambie el idioma predeterminado cuando:

La mayor parte del documento está en un idioma distinto del inglés
Procesamiento de documentos de una región o país específicos
Su aplicación se dirige a usuarios que trabajan con contenidos en lengua no inglesa
Optimización de la precisión de reconocimiento para conjuntos de caracteres específicos

He aquí un ejemplo completo de procesamiento de imágenes en varios idiomas:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);

$vbLabelText $csharpLabel

Para idiomas personalizados o fuentes especializadas, consulte nuestro tutorial sobre Uso de archivos de idioma personalizados.

¿Qué resultados puedo esperar del OCR multilingüe?

Una configuración adecuada produce resultados como estos:

Aplicación de procesamiento de texto en varios idiomas que muestra contenido en ruso y japonés con salida de consola que muestra el procesamiento de caracteres

La calidad de los resultados del OCR multilingüe depende de varios factores:

Calidad de imagen: Una resolución más alta (300+ DPI) produce mejores resultados. Consulte nuestra guía Configuración de la DPI.
Claridad del texto: Un texto claro y bien definido sin artefactos produce un reconocimiento más preciso
Configuración de idiomas: La configuración adecuada del idioma primario y secundario garantiza patrones correctos de reconocimiento de caracteres
Preprocesamiento: Los filtros adecuados mejoran los resultados de forma significativa. Consulte nuestra guía Filtros de corrección de imágenes para conocer las técnicas de mejora.

¿Cuáles son los puntos clave del OCR multilingüe?

IronOCR, que utiliza el motor Tesseract, extrae texto de documentos multilingües con eficacia. Maneja las complejidades de la lectura de texto en muchos idiomas, proporcionando una solución versátil. Tanto si se procesan PDF con varios idiomas como si se trabaja con contenido de imágenes multilingüe, IronOCR simplifica el reconocimiento y la extracción de texto entre idiomas.

Principales ventajas de IronOCR para la extracción de texto en varios idiomas:

Exhaustivo soporte lingüístico: Más de 125 idiomas internacionales de OCR a través de paquetes NuGet
Configuración flexible: API sencilla para la configuración del idioma primario y secundario
Alta precisión: Utiliza los algoritmos avanzados de reconocimiento de Tesseract 5
Optimización del rendimiento: soporte multihilo integrado
Compatibilidad multiplataforma: Funciona en Windows, Linux y macOS

IronOCR ofrece una solución completa que combina la facilidad de uso con potentes funciones para la implementación de OCR en varios idiomas. Construya sistemas de gestión de documentos, herramientas de traducción o cualquier aplicación que requiera la extracción de texto multilingüe con la flexibilidad y fiabilidad necesarias para el éxito.

Comience su proyecto de OCR multilingüe descargando IronOCR de NuGet y explorando nuestra documentación y ejemplos. Para casos de uso específicos o escenarios avanzados, nuestras guías de resolución de problemas proporcionan información para obtener resultados óptimos.

Preguntas Frecuentes

¿Cómo se realiza el OCR en documentos que contienen varios idiomas?

IronOCR permite configurar el OCR multilingüe con una sola línea de código. Establezca un idioma principal mediante la propiedad Language y añada idiomas secundarios mediante el método AddSecondaryLanguage. Esto permite a IronOCR extraer con precisión texto de documentos que contengan simultáneamente varias escrituras y conjuntos de caracteres.

¿Qué idiomas son compatibles con la extracción de texto?

IronOCR es compatible con más de 125 paquetes de idiomas gracias a su integración con el motor Tesseract. Aunque el inglés se instala por defecto, puede descargar paquetes de idiomas adicionales de NuGet para habilitar las capacidades de OCR para idiomas que van desde el español y el francés hasta el árabe, el chino, el japonés y muchos más.

¿Cómo añado idiomas secundarios para el procesamiento OCR?

Utilice el método AddSecondaryLanguage en IronOCR para habilitar idiomas adicionales. Por ejemplo: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Esta configuración permite a IronOCR reconocer texto tanto en español como en francés dentro del mismo documento.

¿Puedo extraer texto de PDF multilingües?

Sí, IronOCR puede procesar PDF que contengan varios idiomas. Simplemente configure el motor de OCR con sus idiomas primario y secundario antes del procesamiento. IronOCR gestionará automáticamente las distintas secuencias de comandos y conjuntos de caracteres del PDF, garantizando una extracción de texto precisa en todos los idiomas presentes en el documento.

¿Necesito instalar paquetes de idiomas por separado?

Sí, aunque IronOCR incluye el inglés por defecto, deben instalarse paquetes de idiomas adicionales a través de NuGet. Cada paquete de idioma contiene los datos necesarios para que el motor Tesseract de IronOCR reconozca el texto en ese idioma específico. Puede ver y descargar todos los paquetes de idiomas disponibles en la página de idiomas de IronOCR.

¿Cuál es el flujo de trabajo mínimo para el OCR multilingüe?

El flujo de trabajo mínimo consta de 5 pasos: 1) Descargue la biblioteca IronOCR, 2) Prepare su documento PDF o imagen, 3) Instale los paquetes de idiomas necesarios a través de NuGet, 4) Utilice el método AddSecondaryLanguage para habilitar idiomas adicionales y 5) Establezca la propiedad Language para su idioma principal. Esta configuración permite una extracción de texto multilingüe precisa.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de Software

Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...

Jeffrey T. Fritz

Gerente Principal de Programas - Equipo de la Comunidad .NET

Jeff también es Gerente Principal de Programas para los equipos de .NET y Visual Studio. Es el productor ejecutivo de la serie de conferencias virtuales .NET Conf y anfitrión de 'Fritz and Friends', una transmisión en vivo para desarrolladores que se emite dos veces a la semana donde habla sobre tecnología y escribe código junto con la audiencia. Jeff escribe talleres, presentaciones, y planifica contenido para los eventos de desarrolladores más importantes de Microsoft, incluyendo Microsoft Build, Microsoft Ignite, .NET Conf y la Cumbre de Microsoft MVP.

¿Listo para empezar?

Nuget Descargas 5,525,971 | Versión: 2026.3 recién lanzado

Ver Licencias

¿Aún desplazándote?

¿Quieres una prueba rápida? PM > Install-Package IronOcr
ejecuta una muestra y observa cómo tu imagen se convierte en texto buscable.

Ver Licencias

Destacado del Cliente:

Enfoque del Desarrollador:

Webinars:

Comenzar prueba gratuita de 30 días

En esta página

Cómo utilizar varios idiomas con Tesseract en C

Introducción

Instala IronOCR con el Administrador de Paquetes NuGet

Copie y ejecute este fragmento de código.

Despliegue para probar en su entorno real

Flujo de trabajo mínimo (5 pasos)

¿Cómo leer archivos PDF en varios idiomas con IronOCR?

¿Qué idiomas están disponibles para la extracción de PDF?

¿Cómo afecta la prioridad del idioma a los resultados del OCR?

¿Cómo puedo procesar imágenes multilingües con Tesseract?

¿Cuándo debo cambiar el idioma predeterminado?

¿Qué resultados puedo esperar del OCR multilingüe?

¿Cuáles son los puntos clave del OCR multilingüe?

Preguntas Frecuentes

¿Cómo se realiza el OCR en documentos que contienen varios idiomas?

¿Qué idiomas son compatibles con la extracción de texto?

¿Cómo añado idiomas secundarios para el procesamiento OCR?

¿Puedo extraer texto de PDF multilingües?

¿Necesito instalar paquetes de idiomas por separado?

¿Cuál es el flujo de trabajo mínimo para el OCR multilingüe?

¿Aún desplazándote?

Iron Support Team

Comenzar prueba gratuita de 30 días

En esta página

Cómo utilizar varios idiomas con Tesseract en C

Introducción

Instala IronOCR con el Administrador de Paquetes NuGet

Copie y ejecute este fragmento de código.

Despliegue para probar en su entorno real

Flujo de trabajo mínimo (5 pasos)

¿Cómo leer archivos PDF en varios idiomas con IronOCR?

¿Qué idiomas están disponibles para la extracción de PDF?

¿Cómo afecta la prioridad del idioma a los resultados del OCR?

¿Cómo puedo procesar imágenes multilingües con Tesseract?

¿Cuándo debo cambiar el idioma predeterminado?

¿Qué resultados puedo esperar del OCR multilingüe?

¿Cuáles son los puntos clave del OCR multilingüe?

Preguntas Frecuentes

¿Cómo se realiza el OCR en documentos que contienen varios idiomas?

¿Qué idiomas son compatibles con la extracción de texto?

¿Cómo añado idiomas secundarios para el procesamiento OCR?

¿Puedo extraer texto de PDF multilingües?

¿Necesito instalar paquetes de idiomas por separado?

¿Cuál es el flujo de trabajo mínimo para el OCR multilingüe?

¿Aún desplazándote?

Obtén tu GRATIS

Próximo paso: Comenzar prueba gratuita de 30 días

Próximo paso: Comenzar prueba gratuita de 30 días

Confiado por millones de ingenieros en todo el mundo

Iron Support Team