Cómo usar múltiples idiomas con Tesseract

Cómo usar varios lenguajes con Tesseract en C

This article was translated from English: Does it need improvement?
Translated
View the article in English

En el ámbito de la tecnología de reconocimiento óptico de caracteres (OCR), IronOCR es una herramienta bien considerada conocida por su capacidad para extraer texto de varios idiomas y guiones. Usamos el motor Tesseract para proporcionar una herramienta OCR confiable y fácil de usar.

En este artículo, exploraremos cómo IronOCR maneja efectivamente el texto en varios idiomas, gracias a Tesseract. Ya sea que seas un desarrollador experimentado en busca de una solución OCR multilingüe confiable o simplemente tengas curiosidad por saber cómo funciona todo, este artículo te ayudará a entender IronOCR y su motor Tesseract, arrojando luz sobre las capacidades de esta herramienta invaluable.

Inicio rápido: Usar IronOCR para reconocer texto en varios idiomas

En solo una línea de código, puedes configurar IronOCR con un idioma principal y agregar idiomas secundarios para extraer texto de documentos o imágenes en varios idiomas. Esta configuración permite a los desarrolladores empezar con OCR multilingüe rápido y sin complicaciones.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronOCR con el gestor de paquetes NuGet

    PM > Install-Package IronOcr

  2. Copie y ejecute este fragmento de código.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronOCR en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer


Leer ejemplo de PDF en varios idiomas

IronOcr proporciona aproximadamente 125 paquetes de idiomas; sin embargo, solo se instala el inglés por defecto. El resto se puede descargar desde NuGet. Puedes echar un vistazo a todos los paquetes de idiomas disponibles aquí..

En el siguiente ejemplo, te mostraré el código para usar múltiples idiomas en IronOcr para extraer texto de un archivo PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Puedes agregar cualquier cantidad de idiomas secundarios usando el método AddSecondaryLanguage. Sin embargo, ten en cuenta que esta adición puede afectar la velocidad y el rendimiento. La prioridad del idioma depende del orden en que se agrega, teniendo mayor prioridad el primero que se añada.

Ejemplo de lectura de imágenes en varios idiomas

El idioma principal está configurado en inglés por defecto. Para cambiar el idioma principal, establece la propiedad Language al idioma deseado. Después, también puedes agregar idiomas secundarios.

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Si haces esto correctamente, puedes esperar resultados como los que aparecen a continuación.

Ruso y japonés

Conclusión

En resumen, IronOCR, respaldado por el poderoso motor Tesseract, sobresale en la extracción de texto de documentos en múltiples idiomas. Es una herramienta indispensable para manejar las complejidades de leer texto en muchos idiomas, ofreciendo a los desarrolladores y mentes curiosas una solución versátil. Ya sea que estés procesando PDFs con texto en varios idiomas o trabajando con contenido multilingüe en imágenes, IronOCR simplifica la tarea de reconocer y extraer texto en varios idiomas.

Preguntas Frecuentes

¿Cómo puedo usar múltiples idiomas en el procesamiento OCR?

Para usar múltiples idiomas en el procesamiento OCR con IronOCR, descargue la biblioteca de NuGet, prepare su documento, instale paquetes de idioma adicionales y use el método AddSecondaryLanguage para habilitar otros idiomas.

¿Cómo extraigo texto de un PDF multilingüe?

Puede extraer texto de un PDF multilingüe inicializando el motor de OCR IronTesseract, configurando el idioma principal, agregando idiomas secundarios usando el método AddSecondaryLanguage y procesando el PDF para leer su contenido.

¿Es posible reconocer texto en varios idiomas dentro de una imagen?

Sí, con IronOCR, puede reconocer texto en varios idiomas dentro de una imagen estableciendo el idioma principal y agregando idiomas secundarios al motor OCR antes de procesar la imagen.

¿Cómo afecta la adición de múltiples idiomas al rendimiento del OCR?

Agregar múltiples idiomas en IronOCR puede impactar la velocidad y el rendimiento del proceso de OCR. El orden de los idiomas añadidos determina su prioridad, siendo el primer idioma añadido el que tiene mayor prioridad.

¿Cómo puedo cambiar el idioma predeterminado en IronOCR?

Puede cambiar el idioma predeterminado en IronOCR configurando la propiedad Language al idioma deseado antes de procesar sus documentos o imágenes.

¿Cuántos paquetes de idioma soporta IronOCR?

IronOCR soporta aproximadamente 125 paquetes de idioma, aunque solo el paquete de idioma en inglés está instalado por defecto. Los paquetes de idiomas adicionales se pueden descargar via NuGet.

¿Cómo instalo paquetes de idioma adicionales en IronOCR?

Para instalar paquetes de idioma adicionales en IronOCR, use el Administrador de Paquetes NuGet para descargar los paquetes de idioma deseados e inclúyalos en su proyecto.

¿Puede IronOCR leer texto en idiomas con diferentes escrituras?

Sí, IronOCR puede leer texto en varios idiomas con diferentes escrituras utilizando el motor Tesseract y habilitando los paquetes de idioma relevantes.

¿Cuál es el beneficio de usar IronOCR para contenido multilingüe?

IronOCR proporciona una solución versátil para reconocer y extraer texto de contenido multilingüe, lo que lo hace ideal para desarrolladores que manejan documentos o imágenes que contienen texto en múltiples idiomas.

Kannaopat Udonpant
Ingeniero de Software
Antes de convertirse en Ingeniero de Software, Kannapat completó un doctorado en Recursos Ambientales de la Universidad de Hokkaido en Japón. Mientras perseguía su grado, Kannapat también se convirtió en miembro del Laboratorio de Robótica de Vehículos, que es parte del Departamento de Ingeniería ...
Leer más
Revisado por
Jeff Fritz
Jeffrey T. Fritz
Gerente Principal de Programas - Equipo de la Comunidad .NET
Jeff también es Gerente Principal de Programas para los equipos de .NET y Visual Studio. Es el productor ejecutivo de la serie de conferencias virtuales .NET Conf y anfitrión de 'Fritz and Friends', una transmisión en vivo para desarrolladores que se emite dos veces a la semana donde habla sobre tecnología y escribe código junto con la audiencia. Jeff escribe talleres, presentaciones, y planifica contenido para los eventos de desarrolladores más importantes de Microsoft, incluyendo Microsoft Build, Microsoft Ignite, .NET Conf y la Cumbre de Microsoft MVP.
¿Listo para empezar?
Nuget Descargas 5,167,857 | Version: 2025.11 recién lanzado