Cómo utilizar varios idiomas con Tesseract en C

Actualizado:28 de junio de 2026

Translated

View the article in English

IronOCR permite la extracción de texto de documentos en varios idiomas utilizando el motor Tesseract mediante la configuración de idiomas primarios y secundarios con una sola línea de código, y admite más de 125 paquetes de idiomas para un procesamiento OCR multilingüe sin problemas.

Introducción

IronOCR proporciona extracción de texto de varios lenguajes y scripts utilizando Tesseract Engine como herramienta OCR fiable.

Este artículo explora cómo IronOCR gestiona texto en varios idiomas a través de Tesseract. Aprenderá cómo implementar soluciones OCR multilingües y comprender las capacidades de IronOCR y su integración con el motor Tesseract.

El procesamiento de documentos en varios idiomas es esencial para las aplicaciones modernas. Los documentos comerciales internacionales, los sitios web multilingües y las plataformas de comunicación globales requieren una extracción de texto precisa que supere las barreras lingüísticas. IronOCR aborda esta necesidad integrándose con el amplio soporte de idiomas de Tesseract, lo que permite la extracción de texto de documentos que contienen múltiples escrituras y conjuntos de caracteres simultáneamente.

Inicio rápido: Usar IronOCR para reconocer texto en múltiples idiomas

Configure IronOCR con un idioma principal y añada idiomas secundarios en una sola línea para extraer texto de documentos o imágenes multilingües.

Instala IronOCR con el Administrador de Paquetes NuGet
PM > Install-Package IronOcr

Copie y ejecute este fragmento de código.

string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;

Despliegue para probar en su entorno real

Comienza a usar IronOCR en tu proyecto hoy mismo con una prueba gratuita

Flujo de trabajo mínimo (5 pasos)

Descargue una biblioteca de C# para leer varios lenguajes
Prepare el documento PDF y la imagen para la lectura
Instalar paquetes de idiomas adicionales a través de NuGet
Utilice el método AddSecondaryLanguage para habilitar los idiomas deseados
Establezca la propiedad Idioma para cambiar el idioma predeterminado

¿Cómo leer archivos PDF en varios idiomas con IronOCR?

IronOCR ofrece aproximadamente 125 paquetes de idiomas; por defecto, sólo está instalado el inglés. Descargue otros idiomas de NuGet. Vea todos los paquetes de idiomas disponibles aquí..

Los PDF que contienen varios idiomas requieren una configuración específica del motor de OCR. IronOCR permite especificar los idiomas primario y secundario antes de procesar los documentos, lo que garantiza una precisión de reconocimiento óptima en diferentes alfabetos y conjuntos de caracteres.

¿Qué idiomas están disponibles para la extracción de PDF?

El siguiente ejemplo muestra cómo usar múltiples idiomas en IronOCR para extraer texto de un archivo PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

Para situaciones complejas de procesamiento de PDF, consulte nuestra guía sobre Extracción de texto de PDF OCR, que incluye técnicas avanzadas para diversos formatos y estructuras de PDF.

¿Cómo afecta la prioridad del idioma a los resultados del OCR?

Agregue cualquier cantidad de lenguajes secundarios usando el método AddSecondaryLanguage. Tenga en cuenta que los idiomas adicionales pueden afectar a la velocidad y el rendimiento. La prioridad de los idiomas depende del orden en que se añadan, teniendo mayor prioridad el primero.

Comprender la prioridad lingüística es crucial a la hora de procesar documentos multilingües. El idioma principal recibe la máxima prioridad durante la extracción de texto: el motor OCR primero intenta coincidir caracteres con el conjunto de caracteres del idioma principal. Se consultan idiomas secundarios al encontrar caracteres que no coinciden con los patrones del idioma principal.

Para un rendimiento óptimo:

Establezca el idioma más común del documento como principal
Añadir idiomas secundarios ordenados por frecuencia en el documento
Limite los idiomas secundarios a los necesarios para su caso de uso

Para aplicaciones de alto rendimiento con varios idiomas, consulte nuestra guía Configuración rápida de OCR para optimizar la velocidad de procesamiento.

¿Cómo puedo procesar imágenes multilingües con Tesseract?

El inglés es el idioma principal por defecto. Para cambiarlo, establezca la propiedad Language en su idioma deseado y luego agregue idiomas secundarios según sea necesario.

Las imágenes que contienen texto multilingüe requieren una cuidadosa configuración. A diferencia de los PDFs, las imágenes pueden contener orientaciones de texto variadas, diferentes fuentes y escrituras mixtas. La integración de Tesseract de IronOCR proporciona opciones de configuración de idiomas completas para estos escenarios.

¿Cuándo debo cambiar el idioma predeterminado?

Cambie el idioma predeterminado cuando:

La mayor parte del documento está en un idioma distinto del inglés
Procesamiento de documentos de una región o país específicos
Su aplicación se dirige a usuarios que trabajan con contenidos en lengua no inglesa
Optimización de la precisión de reconocimiento para conjuntos de caracteres específicos

He aquí un ejemplo completo de procesamiento de imágenes en varios idiomas:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Initialize IronTesseract OCR engine
Dim Ocr As New IronTesseract()

' Instantiate IronTesseract
Dim ocrTesseract As New IronTesseract()

' Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Using imageInput As New OcrImageInput("example.png")
    ' Perform OCR
    Dim result As OcrResult = ocrTesseract.Read(imageInput)

    ' Output extracted text to console
    Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

Para idiomas personalizados o fuentes especializadas, consulte nuestro tutorial sobre Uso de archivos de idioma personalizados.

¿Qué resultados puedo esperar del OCR multilingüe?

Una configuración adecuada produce resultados como estos:

Aplicación de procesamiento de texto multilíngüe mostrando contenido en ruso y japonés con salida de consola mostrando procesamiento de caracteres

La calidad de los resultados del OCR multilingüe depende de varios factores:

Calidad de imagen: Una resolución más alta (300+ DPI) produce mejores resultados. Consulte nuestra guía Configuración de la DPI.
Claridad del texto: Texto claro y bien definido sin artefactos mejora el reconocimiento preciso
Configuración del idioma: Una configuración adecuada de idiomas primarios y secundarios asegura patrones correctos de reconocimiento de caracteres
Preprocesamiento: Los filtros adecuados mejoran los resultados de forma significativa. Consulte nuestra guía Filtros de corrección de imágenes para conocer las técnicas de mejora.

¿Cuáles son los puntos clave del OCR multilingüe?

IronOCR, que utiliza el motor Tesseract, extrae texto de documentos multilingües con eficacia. Maneja las complejidades de la lectura de texto en muchos idiomas, proporcionando una solución versátil. Tanto si se procesan PDF con varios idiomas como si se trabaja con contenido de imágenes multilingüe, IronOCR simplifica el reconocimiento y la extracción de texto entre idiomas.

Principales ventajas de IronOCR para la extracción de texto en varios idiomas:

Soporte extenso de idiomas: Más de 125 idiomas OCR internacionales a través de paquetes NuGet
Configuración flexible: API sencilla para configuraciones de idiomas primarios y secundarios
Alta precisión: Utiliza los algoritmos de reconocimiento avanzados de Tesseract 5
Optimización del rendimiento: Soporte de multihilo incorporado
Compatibilidad multiplataforma: Funciona en Windows, Linux y macOS

IronOCR ofrece una solución completa que combina la facilidad de uso con potentes funciones para la implementación de OCR en varios idiomas. Construya sistemas de gestión de documentos, herramientas de traducción o cualquier aplicación que requiera la extracción de texto multilingüe con la flexibilidad y fiabilidad necesarias para el éxito.

Comience su proyecto de OCR multilingüe descargando IronOCR de NuGet y explorando nuestra documentación y ejemplos. Para casos de uso específicos o escenarios avanzados, nuestras guías de resolución de problemas proporcionan información para obtener resultados óptimos.

Preguntas Frecuentes

¿Cómo se realiza el OCR en documentos que contienen varios idiomas?

IronOCR permite configurar el OCR multilingüe con una sola línea de código. Establezca un idioma principal mediante la propiedad Language y añada idiomas secundarios mediante el método AddSecondaryLanguage. Esto permite a IronOCR extraer con precisión texto de documentos que contengan simultáneamente varias escrituras y conjuntos de caracteres.

¿Qué idiomas son compatibles con la extracción de texto?

IronOCR es compatible con más de 125 paquetes de idiomas gracias a su integración con el motor Tesseract. Aunque el inglés se instala por defecto, puede descargar paquetes de idiomas adicionales de NuGet para habilitar las capacidades de OCR para idiomas que van desde el español y el francés hasta el árabe, el chino, el japonés y muchos más.

¿Cómo añado idiomas secundarios para el procesamiento OCR?

Utilice el método AddSecondaryLanguage en IronOCR para habilitar idiomas adicionales. Por ejemplo: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Esta configuración permite a IronOCR reconocer texto tanto en español como en francés dentro del mismo documento.

¿Puedo extraer texto de PDF multilingües?

Sí, IronOCR puede procesar PDF que contengan varios idiomas. Simplemente configure el motor de OCR con sus idiomas primario y secundario antes del procesamiento. IronOCR gestionará automáticamente las distintas secuencias de comandos y conjuntos de caracteres del PDF, garantizando una extracción de texto precisa en todos los idiomas presentes en el documento.

¿Necesito instalar paquetes de idiomas por separado?

Sí, aunque IronOCR incluye el inglés por defecto, deben instalarse paquetes de idiomas adicionales a través de NuGet. Cada paquete de idioma contiene los datos necesarios para que el motor Tesseract de IronOCR reconozca el texto en ese idioma específico. Puede ver y descargar todos los paquetes de idiomas disponibles en la página de idiomas de IronOCR.

¿Cuál es el flujo de trabajo mínimo para el OCR multilingüe?

El flujo de trabajo mínimo consta de 5 pasos: 1) Descargue la biblioteca IronOCR, 2) Prepare su documento PDF o imagen, 3) Instale los paquetes de idiomas necesarios a través de NuGet, 4) Utilice el método AddSecondaryLanguage para habilitar idiomas adicionales y 5) Establezca la propiedad Language para su idioma principal. Esta configuración permite una extracción de texto multilingüe precisa.

¿Puede integrarse IronOCR en aplicaciones existentes?

IronOCR está diseñado para integrarse fácilmente en aplicaciones existentes usando C#, permitiendo a los desarrolladores agregar funcionalidad de OCR a su software con un esfuerzo mínimo.

¿Cuáles son los beneficios de usar IronOCR para la gestión de documentos?

Usar IronOCR para la gestión de documentos agiliza el flujo de trabajo al convertir documentos escaneados en texto buscable y editable, reduciendo la necesidad de entrada manual de datos y mejorando la accesibilidad del documento.

¿Cómo puede IronOCR mejorar la precisión de los datos?

IronOCR mejora la precisión de los datos a través de sus algoritmos de reconocimiento avanzados y características de corrección de imágenes, asegurando que el proceso de extracción de texto sea tanto confiable como preciso.

¿Hay una prueba gratuita disponible para IronOCR?

Sí, Iron Software ofrece una prueba gratuita de IronOCR, permitiendo a los usuarios probar sus características y capacidades antes de tomar una decisión de compra.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de Software

Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...

Jeffrey T. Fritz

Gerente Principal de Programas - Equipo de la Comunidad .NET

Jeff también es Gerente Principal de Programas para los equipos de .NET y Visual Studio. Es el productor ejecutivo de la serie de conferencias virtuales .NET Conf y anfitrión de 'Fritz and Friends', una transmisión en vivo para desarrolladores que se emite dos veces a la semana donde habla sobre tecnología y escribe código junto con la audiencia. Jeff escribe talleres, presentaciones, y planifica contenido para los eventos de desarrolladores más importantes de Microsoft, incluyendo Microsoft Build, Microsoft Ignite, .NET Conf y la Cumbre de Microsoft MVP.

¿Listo para empezar?

Nuget Descargas 6,136,090 | Versión: 2026.7 recién lanzado

Ver Licencias

¿Aún desplazándote?

¿Quieres una prueba rápida? PM > Install-Package IronOcr
ejecuta una muestra y observa cómo tu imagen se convierte en texto buscable.

Ver Licencias

Destacado del Cliente:

Enfoque del Desarrollador:

Webinars:

Comenzar prueba gratuita de 30 días

En esta página

Cómo utilizar varios idiomas con Tesseract en C

Introducción

Instala IronOCR con el Administrador de Paquetes NuGet

Copie y ejecute este fragmento de código.

Despliegue para probar en su entorno real

Flujo de trabajo mínimo (5 pasos)

¿Cómo leer archivos PDF en varios idiomas con IronOCR?

¿Qué idiomas están disponibles para la extracción de PDF?

¿Cómo afecta la prioridad del idioma a los resultados del OCR?

¿Cómo puedo procesar imágenes multilingües con Tesseract?

¿Cuándo debo cambiar el idioma predeterminado?

¿Qué resultados puedo esperar del OCR multilingüe?

¿Cuáles son los puntos clave del OCR multilingüe?

Preguntas Frecuentes

¿Cómo se realiza el OCR en documentos que contienen varios idiomas?

¿Qué idiomas son compatibles con la extracción de texto?

¿Cómo añado idiomas secundarios para el procesamiento OCR?

¿Puedo extraer texto de PDF multilingües?

¿Necesito instalar paquetes de idiomas por separado?

¿Cuál es el flujo de trabajo mínimo para el OCR multilingüe?

¿Puede integrarse IronOCR en aplicaciones existentes?

¿Cuáles son los beneficios de usar IronOCR para la gestión de documentos?

¿Cómo puede IronOCR mejorar la precisión de los datos?

¿Hay una prueba gratuita disponible para IronOCR?

¿Aún desplazándote?

Tu clave de licencia ha sido entregada a tu bandeja de entrada

Tu solicitud de demostración está en curso.

Equipo de soporte de Iron

Comenzar prueba gratuita de 30 días

En esta página

Cómo utilizar varios idiomas con Tesseract en C

Introducción

Instala IronOCR con el Administrador de Paquetes NuGet

Copie y ejecute este fragmento de código.

Despliegue para probar en su entorno real

Flujo de trabajo mínimo (5 pasos)

¿Cómo leer archivos PDF en varios idiomas con IronOCR?

¿Qué idiomas están disponibles para la extracción de PDF?

¿Cómo afecta la prioridad del idioma a los resultados del OCR?

¿Cómo puedo procesar imágenes multilingües con Tesseract?

¿Cuándo debo cambiar el idioma predeterminado?

¿Qué resultados puedo esperar del OCR multilingüe?

¿Cuáles son los puntos clave del OCR multilingüe?

Preguntas Frecuentes

¿Cómo se realiza el OCR en documentos que contienen varios idiomas?

¿Qué idiomas son compatibles con la extracción de texto?

¿Cómo añado idiomas secundarios para el procesamiento OCR?

¿Puedo extraer texto de PDF multilingües?

¿Necesito instalar paquetes de idiomas por separado?

¿Cuál es el flujo de trabajo mínimo para el OCR multilingüe?

¿Puede integrarse IronOCR en aplicaciones existentes?

¿Cuáles son los beneficios de usar IronOCR para la gestión de documentos?

¿Cómo puede IronOCR mejorar la precisión de los datos?

¿Hay una prueba gratuita disponible para IronOCR?

¿Aún desplazándote?

Obtén tu GRATIS

Próximo paso: Comenzar prueba gratuita de 30 días

Thank You

Próximo paso: Comenzar prueba gratuita de 30 días

Want to deploy IronSuite to a live project for FREE?

What’s included?

Tu clave de licencia ha sido entregada a tu bandeja de entrada

Tu solicitud de demostración está en curso.

Confiado por millones de ingenieros en todo el mundo

Equipo de soporte de Iron