Cómo utilizar el lenguaje personalizado con Tesseract en C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR permite OCR para lenguajes personalizados, scripts especializados o cifrados cargando archivos Tesseract .traineddata a través del método UseCustomTesseractLanguageFile, permitiéndole extraer texto de cualquier modelo de lenguaje entrenado a medida.

como-encabezado:2(Inicio rápido: cargar lenguaje personalizado para OCR)

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronOCR con el gestor de paquetes NuGet

    PM > Install-Package IronOcr

  2. Copie y ejecute este fragmento de código.

    using IronOcr;
    
    // Initialize OCR engine
    var ocr = new IronTesseract();
    
    // Load custom language file
    ocr.UseCustomTesseractLanguageFile("custom.traineddata");
    
    // Process document
    using var input = new OcrInput();
    input.LoadImage("document.png");
    
    // Extract text
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronOCR en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer
  1. Instalación de IronOCR mediante el gestor de paquetes NuGet
  2. Cargue su archivo personalizado .traineddata con UseCustomTesseractLanguageFile
  3. Cree un OcrInput y cargue su documento
  4. Llame a Read() para extraer texto en su idioma personalizado
  5. Guardar o procesar el texto extraído

<Descripción: Captura de pantalla o diagrama -->

El reconocimiento óptico de caracteres (OCR) a veces requiere el manejo de lenguajes personalizados, scripts especializados o cifrados. Para leer una imagen de entrada que contenga un idioma personalizado, es necesario proporcionar al motor Tesseract datos de entrenamiento para ese idioma específico. Estos datos se almacenan en un archivo especial .traineddata .

Si bien el complejo proceso de creación (entrenamiento) de este archivo se realiza utilizando las propias herramientas de Tesseract, IronOCR admite totalmente el uso de estos archivos de idioma personalizados. Esto le permite aplicar su modelo entrenado para descifrar y leer texto desde cualquier entrada. Esta guía muestra cómo cargar y utilizar un archivo personalizado .traineddata con IronOCR.

Comience con IronOCR

Comience a usar IronOCR en su proyecto hoy con una prueba gratuita.

Primer Paso:
green arrow pointer


¿Cómo implemento el OCR de idioma personalizado con Tesseract?

<Descripción: Diagrama o captura de pantalla que ilustre el concepto de código -->

Para utilizar un lenguaje personalizado con Tesseract, primero cargue su archivo .traineddata llamando al método UseCustomTesseractLanguageFile. Este es un paso esencial, ya que este archivo contiene todos los datos de entrenamiento que permiten a Tesseract reconocer los caracteres únicos del idioma personalizado.

La compatibilidad con idiomas personalizados en IronOCR va más allá de los idiomas estándar. Tanto si se trabaja con scripts históricos como con lenguajes inventados o sistemas de notación especializados, se aplica el mismo proceso. Para proyectos que requieran varios idiomas, consulta nuestra guía sobre lectura de varios idiomas o infórmate sobre los 125 idiomas internacionales de OCR que se admiten desde el primer momento.

A continuación, carga el documento de entrada como lo harías para una operación de OCR normal. Estamos cargando un PDF que contiene párrafos de lenguaje personalizado utilizando LoadPdf. IronOCR admite varios formatos de entrada, incluidos imágenes (jpg, png, gif, tiff, bmp) y PDFs.

Por último, utiliza el método Read para extraer el texto de la entrada. El resultado puede imprimirse en la consola o guardarse en un archivo de texto como referencia.

¿Qué datos de formación necesito para los lenguajes personalizados?

Usaremos este PDF de muestra, que contiene texto en nuestro idioma personalizado, como entrada.

Usaremos este lenguaje personalizado .traindata para nuestro ejemplo.

La calidad y la exhaustividad de los datos de formación influyen directamente en la precisión del OCR. Al preparar datos de formación lingüística personalizados:

  1. Cobertura de caracteres: asegúrese de que sus datos de formación incluyen todos los caracteres y símbolos
  2. Variaciones de fuentes: incluya varios estilos de fuente si sus documentos varían en tipografía
  3. Calidad de imagen: Entrena con imágenes similares a las que procesarás en producción
  4. Patrones de contexto: incluir combinaciones de palabras y frases comunes

Para conocer las opciones de configuración avanzadas, consulte nuestra Guía detallada de configuración de Teseract.

¿Cómo se cargan y procesan los documentos en idiomas personalizados?

:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs
using IronOcr;
using System;
using System.IO;

var ocrTesseract = new IronTesseract();

// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");

using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");

var ocrResult = ocrTesseract.Read(ocrInput);

// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");

// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);

Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

El código anterior muestra el flujo de trabajo básico para el OCR personalizado de idiomas. Para situaciones más complejas, considere estas mejoras:

Optimizar el rendimiento: Para documentos de gran tamaño o procesamiento por lotes, implemente multithreading y soporte async para mejorar el rendimiento.

Preprocesamiento de imágenes: si los documentos de origen tienen problemas de calidad, aplica filtros de corrección de imágenes antes del procesamiento de OCR. El Asistente de filtrado puede ayudarle a encontrar los ajustes óptimos de preprocesamiento.

OCR específico de la región: Para documentos con contenido mixto, utilice la técnica OCR de región de una imagen para centrarse en áreas específicas que contengan su idioma personalizado.

¿Qué resultados puedo esperar del reconocimiento óptico de caracteres personalizado?

Resultado OCR de Tesseract que muestra el texto extraído sobre las características del juego Apex Legends en la interfaz del terminal

Esta salida muestra el resultado de nuestro modelo de lenguaje personalizado. Al proporcionar los datos de formación correctos, IronOCR descifró con éxito el texto, y el resultado está en inglés sencillo. Además, esta es la salida txt generada por el código.

La precisión del OCR de idiomas personalizados depende de varios factores:

  • Calidad de los datos de entrenamiento: Mejores datos de entrenamiento producen mejores resultados
  • Coherencia de los documentos: Los documentos que coinciden con los datos de formación obtienen mejores resultados
  • Resolución de la imagen: Las imágenes con mayor PPP producen resultados más precisos - consulte nuestra guía sobre Configuración del PPP

Mejores prácticas para la implementación de lenguajes personalizados

A la hora de implementar el OCR personalizado de idiomas en entornos de producción, ten en cuenta estas prácticas recomendadas:

Manejo y validación de errores: Valide siempre que su archivo .traineddata existe y es accesible antes de intentar cargarlo. Implemente una gestión de errores adecuada para los casos en los que el archivo de idioma personalizado pueda faltar o estar dañado.

Optimización del rendimiento: Los modelos lingüísticos personalizados pueden ser más grandes que los paquetes lingüísticos estándar. Para un rendimiento óptimo:

  • Almacenar en caché el modelo de lenguaje cargado al procesar varios documentos
  • Utilice seguimiento del progreso para supervisar las operaciones de OCR de larga duración
  • Considere la posibilidad de implementar tiempos de espera para procesar documentos de gran tamaño

Combinación con idiomas estándar: si sus documentos contienen tanto idiomas personalizados como estándar, puede cargar varios idiomas simultáneamente. Esto resulta especialmente útil para documentos de contenido mixto.

Pruebas y validación: Establecer un marco de pruebas para validar la precisión del OCR:

Casos de uso avanzados

El OCR en idiomas personalizados abre numerosas posibilidades:

Conservación de documentos históricos: Digitalizar manuscritos antiguos o textos escritos en alfabetos obsoletos Sistemas de notación especializados: Procese ecuaciones matemáticas, notación musical o diagramas técnicos; consulte nuestra guía de solución de problemas de ecuaciones Aplicaciones de seguridad: Descifrar sistemas de codificación o cifrado propietarios Accesibilidad: Convertir sistemas especializados de escritura braille o táctil a texto estándar

Para escenarios más avanzados, explore nuestros completos ejemplos de código que muestran varias capacidades de IronOCR con Tesseract 5.

Preguntas Frecuentes

¿Cómo realizo el OCR en documentos con lenguajes o scripts personalizados?

IronOCR permite el reconocimiento óptico de caracteres en idiomas personalizados mediante la carga de archivos Tesseract .traineddata a través del método UseCustomTesseractLanguageFile. Esto le permite extraer texto de cualquier modelo de lenguaje entrenado personalizado, incluyendo scripts especializados, textos históricos o cifrados.

¿Qué formato de archivo se necesita para el reconocimiento personalizado de idiomas?

IronOCR requiere un archivo .traineddata que contenga los datos de entrenamiento para su lenguaje personalizado. Este archivo se carga mediante el método UseCustomTesseractLanguageFile y contiene toda la información necesaria para que Tesseract reconozca los caracteres exclusivos de tu idioma personalizado.

¿Puedo utilizar varios idiomas personalizados en una sola operación de OCR?

Sí, IronOCR admite el reconocimiento de varios idiomas. Puede cargar varios archivos de idioma personalizados o combinar idiomas personalizados con cualquiera de los 125 idiomas internacionales compatibles con IronOCR.

¿Qué tipos de scripts personalizados pueden reconocerse?

IronOCR puede reconocer cualquier escritura personalizada que haya sido adecuadamente entrenada en un archivo .traineddata, incluyendo escrituras históricas, lenguajes inventados, sistemas de notación especializados y cifrados. La flexibilidad se extiende a cualquier sistema de escritura que pueda entrenarse utilizando las herramientas de Tesseract.

¿Cómo implemento el OCR de lenguaje personalizado en mi aplicación de C#?

Para implementar el OCR de idioma personalizado con IronOCR: 1) Inicialice una instancia de IronTesseract, 2) Cargue su archivo personalizado .traineddata utilizando UseCustomTesseractLanguageFile, 3) Cree un objeto OcrInput y cargue su documento, 4) Llame al método Read() para extraer el texto, y 5) Procese el texto extraído según sea necesario.

Curtis Chau
Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

Leer más
¿Listo para empezar?
Nuget Descargas 5,246,844 | Versión: 2025.12 recién lanzado