Configuration Détaillée de Tesseract

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract()
{
    Language = OcrLanguage.EnglishBest,
    Configuration = new TesseractConfiguration()
    {
        ReadBarCodes = false,
        RenderHocr = true,
        BlackListCharacters = "`ë|^",
        PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
    }
};

using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract() With {
	.Language = OcrLanguage.EnglishBest,
	.Configuration = New TesseractConfiguration() With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.BlackListCharacters = "`ë|^",
		.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
	}
}

Private ocrInput = New OcrInput()
ocrInput.LoadImage("images\image.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

Configuration Détaillée de Tesseract

En matière de reconnaissance optique de caractères (OCR), il est essentiel de disposer d'options et de flexibilité quant à la manière d'aborder et d'extraire le texte des documents. L'OCR étant coûteuse, il est nécessaire de pouvoir contrôler ses performances et les méthodes à utiliser sur des documents spécifiques afin de garantir l'évolutivité et l'efficacité de l'application utilisant l'OCR.

IronTesseract offre aux développeurs différentes propriétés et options avec lesquelles bricoler. Par exemple, si vous vouliez mettre sur liste noire certains caractères ou que vous vouliez aussi lire les codes-barres dans les documents ou même dicter comment le moteur OCR lit la page pour rechercher des blocs potentiels de texte, tout cela et plus avec la classe IronTesseract.

Guide en 5 étapes pour utiliser IronOCR avec `Tesseract` 5

var ocrTesseract = new IronTesseract();
ocrTesseract.Language = OcrLanguage.EnglishBest;
ocrTesseract.Configuration.ReadBarCodes = false;
ocrTesseract.Configuration.BlackListCharacters = "`ë|^";
ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;

Après avoir initié la classe IronTesseract, il y a quelques options importantes immédiatement disponibles que nous voudrions modifier. La première propriété à configurer est le Language. Par défaut, la langue est l'anglais ; cependant, IronTesseract prend en charge jusqu'à 125 langues et permet même plusieurs langues avec la méthode UseMultipleLanguages. Pour plus de détails, consultez cette page .

La deuxième propriété que nous voulons configurer est la classe TesseractConfiguration. Grâce à cette classe, nous pouvons modifier la façon dont le moteur Tesseract analyse le document à la recherche de blocs de texte potentiels.

Premièrement, nous modifions la langue du moteur Tesseract en attribuant la langue à OcrLanguage.EnglishBest. Cette variation combine un LSTM et un OEM, qui sont des stratégies de reconnaissance de formes utilisant l'OCR ; La combinaison de ces deux stratégies permet à l'OCR de produire des résultats plus précis.
Ensuite, nous définissons ReadBarCodes sur false pour éviter de lire les codes-barres pendant le processus OCR.

Nous personnalisons et spécifions également les caractères que nous souhaitons extraire en mettant sur liste noire certains caractères du document ; Dans cet exemple, nous mettons sur liste noire des caractères afin d'éviter d'extraire du texte contenant des accents graves, des accents ou des chevrons. Enfin, nous définissons TesseractVariables["tessedit_parallelize"] sur false pour désactiver temporairement le traitement parallèle. Ce dernier est une fonctionnalité très puissante car il interagit directement avec le moteur Tesseract. Ici se trouve une liste complète de TesseractVariables qui permet aux développeurs de personnaliser davantage le comportement du moteur Tesseract lors de l'exécution de l'OCR.

Explorez davantage d'options de configuration d'IronTesseract