Packs linguistiques OCR personnalisés
Comment créer des packs de langues personnalisés à utiliser dans l'IronOCR ?
La création d'un pack de langues personnalisé nécessite la formation d'un nouveau fichier de langue/dictionnaire Tesseract 4 LTSM à partir d'une police.
De nombreux tutoriels disponibles en ligne expliquent les étapes à suivre pour ce faire. Le processus n'est pas simple, mais il est heureusement bien documenté.
Pour commencer, nous suggérons ce qui suit Tutoriel YouTube de Gabriel Garcia (pas d'affiliation) et leurs liens Dépôt GitHub:
Une fois terminé, le résultat sera un fichier .traineddata.
Le fichier .traineddata peut ensuite être référencé dans IronOCR comme suit :
Doc : https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}