Uso de paquetes de idiomas OCR personalizados con IronOCR
¿Cómo crear paquetes de idiomas personalizados para utilizarlos en IronOCR?
La creación de un paquete de idioma personalizado requiere la formación de un nuevo archivo de idioma / diccionario Tesseract 4 LTSM a partir de una fuente.
Hay muchos tutoriales en Internet que explican los pasos necesarios para hacerlo. El proceso no es sencillo, pero afortunadamente está bastante bien documentado.
Como buen punto de partida, sugerimos lo siguienteTutorial de YouTube deGabriel García (sin afiliación) y sus enlacesRepositorio GitHub:
Una vez completado, el resultado será un archivo .traineddata.
El archivo .traineddata puede entonces ser referenciado en IronOCR de la siguiente manera:
Doc:https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}