Uso de paquetes de idiomas OCR personalizados con IronOCR
¿Cómo crear paquetes de idiomas personalizados para utilizarlos en IronOCR?
La creación de un paquete de idioma personalizado requiere la formación de un nuevo archivo de idioma / diccionario Tesseract 4 LTSM a partir de una fuente.
Hay muchos tutoriales en Internet que explican los pasos necesarios para hacerlo. El proceso no es sencillo, pero afortunadamente está bastante bien documentado.
Como un buen punto de partida, sugerimos este tutorial de YouTube de Gabriel Garcia (sin afiliación) y su repositorio de GitHub vinculado:
Una vez completado, el resultado será un archivo .traineddata.
El archivo .traineddata puede entonces ser referenciado en IronOCR de la siguiente manera:
Documento: https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}


