Utilisation de packs de langue personnalisés avec le logiciel OCR IronOCR
Comment créer des packs de langue personnalisés pour IronOCR ?
La création d'un pack de langue personnalisé pour ce logiciel OCR nécessite l'entraînement d'un nouveau fichier/dictionnaire de langue Tesseract 4 LSTM à partir d'une police.
De nombreux tutoriels sont disponibles en ligne expliquant les étapes à suivre. Le processus n'est pas simple, mais il est heureusement assez bien documenté.
Pour bien commencer, nous vous suggérons ce tutoriel YouTube de Gabriel Garcia (sans affiliation) et son dépôt GitHub associé.
Une fois terminé, le résultat sera un fichier .traineddata.
Le fichier .traineddata peut ensuite être référencé dans IronOCR comme suit :
Documentation : Langues personnalisées d'IronOCR
using IronOcr;
class Program
{
static void Main()
{
// Initialize the IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load your custom Tesseract language file (trained .traineddata file)
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<--- your new font
// Multiple fonts can be used by calling the method multiple times with different files
// Load an image into the OCR Input for processing
using (var Input = new OcrInput(@"images\image.png"))
{
// Perform OCR on the input image
var Result = Ocr.Read(Input);
// Output the recognized text to the console
Console.WriteLine(Result.Text);
}
}
}
using IronOcr;
class Program
{
static void Main()
{
// Initialize the IronTesseract OCR engine
var Ocr = new IronTesseract();
// Load your custom Tesseract language file (trained .traineddata file)
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata"); //<--- your new font
// Multiple fonts can be used by calling the method multiple times with different files
// Load an image into the OCR Input for processing
using (var Input = new OcrInput(@"images\image.png"))
{
// Perform OCR on the input image
var Result = Ocr.Read(Input);
// Output the recognized text to the console
Console.WriteLine(Result.Text);
}
}
}
Imports IronOcr
Friend Class Program
Shared Sub Main()
' Initialize the IronTesseract OCR engine
Dim Ocr = New IronTesseract()
' Load your custom Tesseract language file (trained .traineddata file)
Ocr.UseCustomTesseractLanguageFile("mydir/custom.traineddata") '<--- your new font
' Multiple fonts can be used by calling the method multiple times with different files
' Load an image into the OCR Input for processing
Using Input = New OcrInput("images\image.png")
' Perform OCR on the input image
Dim Result = Ocr.Read(Input)
' Output the recognized text to the console
Console.WriteLine(Result.Text)
End Using
End Sub
End Class

