Utilisation de packs linguistiques d'OCR personnalisés avec IronOCR
Comment créer des packs de langues personnalisés à utiliser dans l'IronOCR ?
La création d'un pack de langues personnalisé nécessite la formation d'un nouveau fichier de langue/dictionnaire Tesseract 4 LTSM à partir d'une police.
De nombreux tutoriels disponibles en ligne expliquent les étapes à suivre pour ce faire. Le processus n'est pas simple, mais il est heureusement bien documenté.
Pour commencer, nous suggérons ce qui suitTutoriel YouTube deGabriel Garcia (pas d'affiliation) et leurs liensDépôt GitHub:
Une fois terminé, le résultat sera un fichier .traineddata.
Le fichier .traineddata peut ensuite être référencé dans IronOCR comme suit :
Doc :https://ironsoftware.com/csharp/ocr/languages/
using IronOcr;
var Ocr = new IronTesseract();
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<---your new font
// Multiple fonts can be used.
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}