Définition des variables de configuration de Tesseract dans C# ;

This article was translated from English: Does it need improvement?
Translated
View the article in English

L'interface IronOCR Tesseract permet un contrôle total des variables de configuration de Tesseract par l'intermédiaire de la fonction

Classe IronOCR.TesseractConfiguration

Exemple de code de configuration de Tesseract

using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
Imports IronOcr

Private Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.ReadBarCodes = False
Ocr.Configuration.BlackListCharacters = "`ë ^"
Ocr.Configuration.RenderSearchablePdf = True
Ocr.Configuration.RenderHocr = True
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
Ocr.Configuration.TesseractVariables ("tessedit_parallelize") = False

Using Input = New OcrInput("images\image.png")
 Dim Result = Ocr.Read(Input)
 Console.WriteLine(Result.Text)
End Using
VB   C#

Liste de toutes les variables de configuration de Tesseract

Elles peuvent être définies en utilisant IronTesseract.Configuration.TesseractVariables["clé"] = valeur;

Variable de configuration du TesseractDéfautSignification
classifier_num_cp_niveauxNombre de niveaux d'élagage de classe
textord_debug_tabfindOnglet Débogage
textord_debug_bugsActiver les sorties relatives aux bogues dans la recherche d'onglets
textord_testregion_left-1Bord gauche du rectangle de rapport de débogage
textord_testregion_top-1Bord supérieur du rectangle de rapport de débogage
textord_testregion_droite147483647Bord droit du rectangle de débogage
textord_testregion_bottom147483647Bord inférieur du rectangle de débogage
textord_tabfind_show_partitionsAfficher les limites de la partition, attendre si >
devanagari_split_debuglevelNiveau de débogage pour le processus split shiro-rekha.
edges_max_children_per_outlineNombre maximal d'enfants à l'intérieur d'un contour de caractère
couches_max_enfants_arêtesNombre maximal de couches d'enfants imbriqués à l'intérieur d'un contour de caractère
bords_enfants_par_petit-enfantRapport d'importance pour les contours du mandrin
limite_compte_des_enfants_des_arêtesNombre maximum de trous autorisés dans le blob
bords_min_nonholePixels minimums pour les caractères potentiels dans la boîte
rapport_patharea_bordsLentille maximale/surface pour un contour d'enfant acceptable
textord_fp_chop_errorCourbure maximale autorisée des cellules de la hache
textord_tabfind_show_imagesAfficher les taches d'image
textord_skewsmooth_offsetPour le facteur lisse
textord_skewsmooth_offset2Pour le facteur lisse
textord_test_x-2147483647coordonnateur du pt de test
textord_test_y-2147483647coordonnateur du pt de test
textord_min_blobs_in_rowMin blobs before gradient counted
textord_spline_minblobsMin blobs dans chaque segment de spline
texteord_spline_medianwinTaille de la fenêtre pour la segmentation spline
textord_max_blob_overlapsNombre maximum de blobs qu'un big blob peut chevaucher
textord_min_xheightPixel crédible minimum xhauteur
essais en ligne textord_lms_lineNombre de lignes à effectuer
compte des pertes de l'ancienbl_holed_losscountNombre maximal de lignes perdues avant l'utilisation de la ligne de repli
pitsync_linear_versionUtiliser un nouvel algorithme rapide
pitsync_fake_depthGénération maximale de fausses avances
textord_tabfind_show_strokewidthsAfficher l'épaisseur des traits
textord_dotmatrix_gapÉcart maximal entre les pixels pour un pas de pixel brisé
textord_debug_blockBloc à déboguer sur
gamme_de_pitch_du_texteEssai de portée maximale sur le terrain
mots-clés_veto_powerRangs nécessaires pour mettre un veto en minorité
équationdetect_save_bi_imageSauvegarde de l'image d'entrée
equationdetect_save_spt_imageEnregistrer l'image d'un caractère spécial
equationdetect_save_seed_imageEnregistrer l'image de départ
equationdetect_save_merged_imageEnregistrer l'image fusionnée
poly_debugDéboguer l'ancien poly
poly_large_objets_mieuxPlus d'informations précises sur des sujets vastes
wordrec_display_splitsAfficher les fractionnements
textord_debug_printableRendre les fenêtres de débogage imprimables
textord_space_size_is_variableSi c'est le cas, les espaces délimitant les mots sont supposés avoir une largeur variable, même si les caractères ont une hauteur fixe.
textord_tabfind_show_initial_partitionsAfficher les limites de la partition
textord_tabfind_show_reject_blobsAfficher les blobs rejetés comme du bruit
textord_tabfind_show_columnsAfficher les limites des colonnes
textord_tabfind_show_blocksAfficher les limites du bloc final
textord_tabfind_find_tablesdétection de la table d'exécution
devanagari_split_debugimageCréation ou non d'une image de débogage pour le processus de fractionnement shiro-rekha.
textord_show_fixed_cutsTracer les limites des cellules à pas fixe
arêtes_utilisation_nouvelle_complexité_des_sorties_de_sorties_de_sortiesUtiliser le nouveau module de complexité des contours
edges_debugactiver le débogage pour ce module
bords_enfants_fixeSupprimez les parents de type "boxy" des enfants de type "char"
gapmap_debugIndiquer les blocs qui ont des tables
gapmap_use_endsUtiliser de grands espaces au début et à la fin des lignes
gapmap_no_isolated_quantaVeiller à ce que les lacunes ne soient pas inférieures à 2quanta de large
textord_heavy_nrSupprimer énergiquement le bruit
textord_show_initial_rowsAffichage de l'accumulation des lignes
textord_show_parallel_rowsAfficher les lignes en corrélation avec la page
textord_show_expanded_rowsAfficher les lignes après l'expansion
textord_show_final_rowsAfficher les rangs après l'ajustement final
textord_show_final_blobsAfficher les limites du blob après le pré-assemblage
textord_test_paysageLes tests se réfèrent à la terre/au port
textord_parallel_baselinesForcer les lignes de base parallèles
lignes de base droitesForcer les lignes de base droites
textord_old_baselinesUtiliser l'ancien algorithme de base
textord_old_xheightUtiliser l'ancien algorithme xheight
textord_fix_xheight_bugUtiliser une ligne de base spline
textord_fix_makerow_bugEmpêcher les lignes de base multiples
textord_debug_xheightsTest des algorithmes xheight
textord_biased_skewcalcEstimation de l'asymétrie du biais en fonction de la longueur de la ligne
textord_interpolating_skewInterpoler à travers les lacunes
textord_new_initial_xheightUtiliser le mécanisme de test xheight
textord_debug_blobImprimer les informations sur le blob de test
textord_really_old_xheightUtiliser l'original de wiseowl xheight
textord_oldbl_debugDéboguer l'ancienne génération de lignes de base
textord_debug_baselinesGénération d'une ligne de base de débogage
textord_oldbl_paradefUtiliser le mécanisme par défaut
textord_oldbl_split_splinesCannelures à gradins fendus
textord_oldbl_merge_partsFusionner des partitions suspectes
oldbl_corrfixAméliorer la corrélation des hauteurs
oldbl_xhfixCorrection d'un bug dans le seuil des modes pour les hauteurs x
textord_ocropus_modeÉtablir des lignes de base pour ocropus
textord_tabfind_only_strokewidthsExécuter uniquement les largeurs de trait
textord_tabfind_show_initialtabsAfficher les candidats aux onglets
textord_tabfind_show_finaltabsAfficher les vecteurs des onglets
textord_show_tablesAfficher les régions du tableau
textord_tablefind_show_markTableau de débogage marquant les étapes en détail
textord_tablefind_show_statsAfficher les statistiques de la page utilisées dans la recherche de tableaux
textord_tablefind_recognize_tablesActive l'outil de reconnaissance des tableaux pour la mise en page et le filtrage des tableaux.
textord_all_propTous les documents sont des textes proportionnels
textord_debug_pitch_testDébogage sur le test du pas fixe
textord_disable_pitch_testDésactiver l'algorithme de pas fixe dp
textord_fast_pitch_testFaire un algorithme de tangage encore plus rapide
textord_debug_pitch_metricRédiger des documents métriques complets
textord_show_row_cutsTracer des coupes au niveau des rangs
textord_show_page_cutsEffectuer des coupes au niveau de la page
textord_pitch_cheatUtiliser la bonne réponse pour fixe/prop
textord_blockndoc_fixedTentative d'un document/bloc entier à hauteur fixe
textord_show_initial_wordsAfficher des mots séparés
textord_show_new_wordsAfficher des mots séparés
textord_show_fixed_wordsAffichage de mots forcés à hauteur fixe
textord_blocksall_fixedSe plaindre des blocs d'accessoires
textord_blocksall_propSe plaindre des blocs à hauteur fixe
textord_blocksall_testingDéchargez les statistiques en vous lamentant
mode_test_textordEffectuer le test de courant
mots_de_pitch_échellemots_grandsScores sur les grands mots
textord_restore_underlinesDécouper les soulignements et les remettre en place
textord_fp_choppingEffectuer un hachage à hauteur fixe
textord_force_make_prop_wordsForcer la segmentation proportionnelle des mots sur toutes les lignes
textord_chopper_testL'hélico est en cours de test.
wordrec_display_all_blobsAfficher les blobs
wordrec_blob_pausePause du Blob
liste_de_fichiers_de_fluxStream d'une liste de fichiers à partir de stdin
fichier_débogageFichier vers lequel envoyer la sortie tprintf
classer_le_nom_de_la_police_de_polices_de_polices_de_policesPolice inconnueNom de la police par défaut à utiliser dans la formation
titre du documentTitre du document de sortie (utilisé pour hOCR et la sortie PDF)
pointproduitautomobileFonction utilisée pour le calcul du produit de points
classifier_cp_angle_pad_looseClass Pruner Angle Pad Loose
classifier_cp_angle_pad_mediumClasse Tampon d'élagage à angle moyen
classifier_cp_angle_pad_tightCLass Pruner Angle Pad Tight
classifier_cp_end_pad_loose.5Classe Tampon d'élagage en vrac
classifier_cp_end_pad_medium.5Classe Tampon d'élagage moyen
classifier_cp_end_pad_tight.5Class Pruner End Pad Tight
classifier_cp_side_pad_loose.5Classe Tampon latéral d'élagueur Détaché
classifier_cp_side_pad_medium.2Class Pruner Side Pad Medium
classifier_cp_side_pad_tight.6Class Pruner Side Pad Tight
classifier_pp_angle_padPlaque d'angle pour élagueuse Proto
classifier_pp_end_pad.5Proto Prune End Pad
classifier_pp_side_pad.5Coussinet latéral pour élagueuse Proto
classer_pente_min.414214Pente en dessous de laquelle les lignes sont dites horizontales
classer_max_pente.41421Pente au-dessus de laquelle les lignes sont dites verticales
classifier_norm_adj_midpointAjuster le point médian de la norme ...
classifier_norm_adj_curlLa norme permet d'ajuster l'enroulement ...
longueur_de_la_caractéristique_de_la_classification.05Pico Feature Length
seuil de soulignement du texte.5Fraction de la largeur occupée
bords_childarea.5Fraction de surface minimale du contour de l'enfant
edges_boxarea.875Fraction de surface minimale du petit-enfant pour la boîte
textord_fp_chop_snap.5Distance maximale du point de coupe par rapport au sommet
gapmap_big_gaps.75multiplicateur xht
textord_spline_shift_fraction.02Fraction de l'interligne pour le quad
textord_spline_outlier_fraction.1Fraction de l'interligne pour la valeur aberrante
textord_skew_ile.5Ile de gradients pour l'inclinaison de la page
textord_skew_lag.02Retard pour l'asymétrie sur l'accumulation de lignes
textord_linespace_iqrlimit.2Prix maximal/ médian pour l'espace interligne
limite_de_largeur_du_texteLargeur maximale des blobs pour former des rangées
textord_chop_width.5Largeur maximale avant coupe
facteur_d'expansion_du_texteFacteur d'expansion des lignes dans expand_rows
textord_overlap_x.375Fraction d'espace pour un bon chevauchement
textord_minxh.25fraction de la taille des lignes pour la hauteur minimale
textord_min_linesize.25* hauteur du blob pour la taille initiale des lignes
textord_excess_blobsize.3Nouvelle rangée créée si le blob fait une rangée de cette taille
seuil d'occupation.4Fraction du quartier
largeur_du_soulignement_du_texteMultiple de line_size pour le soulignement
textord_min_blob_height_fraction.75Hauteur/top minimum du blob pour inclure le top du blob dans les statistiques xheight
textord_xheight_mode_fraction.4Hauteur minimale de la pile pour obtenir la hauteur x
textord_ascheight_mode_fraction.08Hauteur minimale de la pile pour obtenir la hauteur de la pile
textord_descheight_mode_fraction.08Hauteur minimale de la pile pour obtenir une hauteur inférieure
textord_ascx_ratio_min.25Cap min/hauteur
textord_ascx_ratio_max.8Hauteur max. du capuchon/x
textord_descx_ratio_min.25Min desc/xheight
textord_descx_ratio_max.6Description maximale/hauteur max
textord_xheight_error_margin.1Variation acceptée
oldbl_xhfract.4Fraction de l'est autorisée dans le calcul
oldbl_dot_error_size.26Rapport d'aspect maximal d'un point
textord_oldbl_jumplimit.15Fraction X pour la nouvelle partition
pitsync_joined_edge.75Dist inside big blob for chopping
pitsync_offset_freecut_fraction.25Fraction de la coupe pour les coupes franches
textord_tabvector_vertical_gap_fraction.5fraction maximale de la largeur moyenne du blob autorisée pour les lacunes verticales dans le texte vertical
textord_tabvector_vertical_box_ratio.5Fraction de boîtes d'allumettes nécessaires pour déclarer une ligne verticale
textord_projection_scale.2Taux de ding pour les coupes intermédiaires
facteur_d'équilibre_du_texteTaux de ding pour les cellules déséquilibrées
facteur_de_lissage_des_mots_de_texte.05Lissage des statistiques sur les écarts
facteur de lissage de la largeur du texte.1Statistiques sur la largeur de lissage
mot_texte_largeur_ile.4Ile de largeurs de blob pour l'espace est
espace_maximum_des_mots_du_texteMultiple de xheight
textord_words_default_maxspace.5Troisième espace le plus crédible possible
textord_words_default_minspace.6Fraction de xheight
textord_words_min_minspace.3Fraction de xheight
textord_words_default_nonspace.2Fraction de xheight
textord_mots_initiaux_inférieurs.25Taille initiale maximale de la grappe
textord_words_initial_upper.15Espacement initial minimal des grappes
textord_words_minlarge.75Fraction de lacunes valides nécessaires
textord_words_pitchsd_threshold.04Seuil de synchronisation de la hauteur
textord_words_def_fixed.016Seuil de fixation définitive
textord_words_def_prop.09Seuil de l'accessoire définitif
textord_pitch_rowsimilarity.08Fraction de la hauteur x pour la similitude
mots_initiaux_inférieurs.5Taille initiale maximale de la grappe
mots_initiaux_supérieurs.15Espacement initial minimal des grappes
mots_default_prop_nonspace.25Fraction de xheight
mots_default_fixed_space.75Fraction de xheight
mots_limite_fixe_par_défaut.6Variation de la taille autorisée
textord_mots_definite_spread.3Région d'espacement non floue
textord_spacesize_ratiofp.8Rapport minimal espace/non-espace
textord_spacesize_ratiopropRapport minimal espace/non-espace
textord_fpiqr_ratio.5Seuil IQR pitch/Gap IQR
textord_max_pitch_iqr.2Xh fraction du bruit en hauteur
textord_fp_min_width.5Largeur minimale des blocs décents
décalage_souligné_du_texte.1Fraction de x à ignorer
ambigs_debug_levelNiveau de débogage pour les ambiguïtés unichar
classifier le niveau de débogageClassifier le niveau de débogage
méthode_norme_classiqueMéthode de normalisation ...
matcher_debug_levelNiveau de débogage de l'interprète
drapeaux_debug_matcherDrapeaux de débogage du comparateur
niveau_debug de classify_learningApprendre le niveau de débogage :
matcher_permanent_classes_minNombre minimum de classes permanentes
matcher_min_exemples_pour_ prototypingSeuil de configuration fiable
exemples_suffisants_de_matrice_de_matrice_de_matrice_de_matrice_de_matrice_de_matrice for_prototypingPermettre l'adaptation même si les ambiguïtés n'ont pas été vues
seuil_de_classification_d'adaptation_du_proto30Seuil pour les bons protos pendant l'adaptation 0-255
seuil_de_classification_d'adaptation_des_caractéristiques30Seuil pour les bonnes caractéristiques lors de l'adaptation 0-255
seuil_de_classification_du_pruner29Classe Seuil d'élagage 0-255
multiplicateur_de_classe_de_pruner5Multiplicateur d'élagueurs de classe 0-255 :
classifier_cp_cutoff_strengthClasse Élagueur CoupeurRésistance :
classifier_integer_matcher_multiplierMultiplicateur de l'outil de recherche de nombres entiers 0-255 :
dawg_debug_levelRégler sur 1 pour des informations générales de débogage, sur 2 pour plus de détails, sur 3 pour voir tous les messages de débogage
trait d'union_niveau_debugNiveau de débogage pour les mots à trait d'union.
taille_des_mots_arrêtésTaille du mot dicté à traiter comme un mot non dicté
niveau_debug_stoppeurNiveau de débogage de Stopper
tessedit_truncate_wordchoice_logNombre maximal de mots à conserver dans la liste
max_permuter_attempts0000Nombre maximum de choix de caractères différents à prendre en compte lors de la permutation. Cette limite est particulièrement utile lorsque des modèles d'utilisateur sont spécifiés, car des modèles trop génériques peuvent amener dawg search à explorer un nombre trop important d'options.
repair_unchopped_blobsCorriger les blobs qui ne sont pas hachés
chop_debugChop debug
chop_split_length0000Longueur de la fente
chop_same_distanceMême distance
chop_min_outline_pointsNombre minimum de points sur le schéma
taille_de_la_pile_de_chop_seam50Nombre maximal de coutures dans la pile de coutures
chop_inside_angle-50Angle intérieur min
chop_min_outline_area000Superficie minimale des contours
chop_centered_maxwidthLargeur des taches (plus petites) hachées au-dessus de laquelle nous ne nous soucions pas qu'une tache ne soit pas près du centre.
chop_x_y_weightX / Y longueur poids
wordrec_debug_levelNiveau de débogage pour wordrec
wordrec_max_join_chunksNombre maximum de pièces cassées à associer
segsearch_debug_levelNiveau de débogage de SegSearch
segsearch_max_pain_points000Nombre maximum de points de douleur stockés dans la file d'attente
segsearch_max_futile_classificationsNombre maximum de classifications de points douloureux par morceau qui n'ont pas permis de trouver un meilleur choix de mots.
niveau_debug_du_modèle_de_langueNiveau de débogage du modèle linguistique
ordre_des_modèles_de_languesOrdre maximum du modèle de ngrammes de caractères
liste_de_viterbi_modèle_de_langue_de_langue_de_langue_de_viterbi max_num_prunable0Nombre maximal d'arbres élagables (ceux pour lesquels PrunablePath() est vrai) entries in each viterbi list recorded in BLOB_CHOICEs
taille_max de_la_liste_de_viterbi_du_modèle_de_langue00Taille maximale des listes de viterbi enregistrées dans BLOB_CHOICEs
longueur_composée_min_du_modèle_de_langueLongueur minimale des mots composés
wordrec_display_segmentationsSegmentation de l'affichage
tessedit_pageseg_modeMode de segmentation des pages : 0=osd uniquement, 1=auto+osd, 2=auto uniquement, 3=auto, 4=colonne, 5=block_vert, 6=block, 7=ligne, 8=mot, 9=mot_cercle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (Valeurs de l'enum PageSegMode dans tesseract/publictypes.h)
tessedit_ocr_engine_modeQuel(s) moteur(s) d'OCR exécuter (Tesseract, LSTM, les deux). Par défaut, le moteur le plus précis est chargé et exécuté.
pageseg_devanagari_split_strategyUtilisation ou non du processus de division de la première ligne pour les documents Devanagari lors de la segmentation des pages.
ocr_devanagari_split_strategyUtiliser ou non le processus de découpage de la première ligne pour les documents Devanagari lors de l'ocr.
bidi_debugNiveau de débogage pour BiDi
applybox_debugNiveau de débogage
applybox_pageNuméro de la page à partir de laquelle les cases doivent être appliquées
tessedit_bigram_debugQuantité de données de débogage pour la correction des bigrammes.
debug_noise_removalDéboguer la réaffectation des petits contours
bruit_maxperblobNombre maximal de signes diacritiques à appliquer à un blob
mot_maximum de bruit6Nombre maximal de signes diacritiques à appliquer à un mot
debug_x_ht_levelRéestimer le débogage
qualité_min_initiale_alphas_reqdles alphas dans un bon mot
tessedit_tess_adaption_mode9Algorithme de décision d'adaptation pour tess
multilang_debug_levelImprime les informations de débogage multilang.
paragraphe_debug_levelImprimer les informations de débogage du paragraphe.
tessedit_preserve_min_wd_lenNe conservez que les mots plus longs que celui-ci
crunch_rating_maxPour la longueur ajustée dans le classement par ch
indicateurs_pots_crunchCombien d'indicateurs potentiels sont nécessaires ?
crunch_leave_lc_stringsNe pas écraser les mots avec de longues chaînes de minuscules
crunch_leave_uc_stringsNe pas écraser les mots avec de longues chaînes de minuscules
crunch_long_repetitionsLes mots croquants avec de longues répétitions
crunch_debugComme le dit le texte
fixsp_non_noise_limitCombien d'ampoules non bruyantes de part et d'autre ?
fixsp_done_modeCe qui constitue fait pour l'espacement
debug_fix_space_levelDébogage contextuel de l'espace fixe
x_ht_acceptance_toleranceDéviation maximale autorisée du sommet du blob en dehors des données de la police
x_ht_min_changeChangement minime dans le xht avant de l'essayer
superscript_debugNiveau de débogage pour le fixateur de sous et d'exposants
qualité_jpgDéfinir le niveau de qualité JPEG
user_defined_dpiSpécifier le DPI de l'image d'entrée
min_character_to_trySpécifier le nombre minimum de caractères à essayer pendant l'OSD
niveau_de_suspicion9Niveau du marqueur suspect
mots_courts_suspectsNe soupçonnez pas de dict wds plus longs que cela
tessedit_reject_modeAlgorithme de rejet
tessedit_image_borderRej blbs near image edge limit
min_sane_x_ht_pixelsRejeter tout x-ht lt ou eq que celui-ci
tessedit_page_numéro-1-1 -> Toutes les pages, ou une page spécifique à traiter
tessedit_parallelizeExécution en parallèle dans la mesure du possible
lstm_choice_modePermet d'inclure des choix de symboles alternatifs dans la sortie hOCR. Les valeurs d'entrée valides sont 0, 1 et 2. 0 est la valeur par défaut. Avec 1, les choix de symboles alternatifs par pas de temps sont inclus. Avec 2, les choix de symboles alternatifs sont extraits du processus CTC au lieu du réseau. Les choix sont cartographiés par caractère.
lstm_choice_iterationsDéfinit le nombre d'itérations en cascade pour la recherche de faisceau en mode lstm_choice_mode. Notez que lstm_choice_mode doit avoir une valeur supérieure à 0 pour produire des résultats.
tosp_debug_levelDonnées de débogage
tosp_enough_space_samples_for_medianou devrions-nous utiliser la moyenne
tosp_redo_kern_limitNombre d'échantillons nécessaires à la réestimation de la ligne
tosp_few_samplesNombre d'interstices requis avec 1 grand interstice à traiter comme une table
tosp_short_rowAucun espace n'est requis avec quelques espaces pour utiliser les certificats
méthode_sanité_tospComment éviter d'être ridicule
taille_du_bruit_maximaleTaille des pixels du bruit
textord_baseline_debugNiveau de débogage de base
textord_noise_sizefractionFraction de la taille pour les maxima
textord_noise_translimit6Transitions pour un blob normal
textord_noise_sncountsuper norm blobs to save row
utilisation_des_ambigs_pour_l'adaptationUtiliser les ambigus pour décider de l'adaptation à un personnage
allow_blob_divisionUtiliser des blocs divisibles pour le hachage
prioritize_divisionPriorité à la division des blobs plutôt qu'au découpage
classifier_activer_apprentissageActiver le classificateur adaptatif
tess_cn_matchingCorrespondance normalisée des caractères
tess_bn_matchingCorrespondance normalisée de base
classify_enable_adaptive_matcherActiver le classificateur adaptatif
classifier_utiliser_des_modèles_préadaptésUtiliser des modèles de classificateurs préadaptés
classifier_sauver_les_modèles_adaptésEnregistrer les modèles adaptés dans un fichier
classifier_activer_le_débogueur_adaptatifActiver le débogueur de match
classifier_non-linéaire_normNormalisation non linéaire de la densité des traits
désactiver les fragments de caractèresNe pas inclure les fragments de caractères dans les résultats du classificateur
classifier les fragments de caractères de débogageAfficher les fenêtres de débogage graphique pour la formation aux fragments
matcher_debug_separate_windowsUtilisez deux fenêtres différentes pour le débogage de l'appariement : une pour les prototypes et une pour les fonctionnalités.
mode_classique_bln_numeriqueSupposons que l'entrée soit constituée de chiffres [0-9].
load_system_dawgChargez le mot système dawg.
load_freq_dawgChargez les mots fréquents dawg.
load_unambig_dawgChargez le mot sans ambiguïté dawg.
load_punc_dawgChargez le dawg avec des schémas de ponctuation.
load_number_dawgChargez le dawg avec des modèles de nombres.
load_bigram_dawgCharger dawg avec des mots spéciaux bigrammes.
use_only_first_uft8_stepN'utiliser que la première étape UTF8 de la chaîne donnée lors du calcul des probabilités logarithmiques.
stopper_les_choix_non_acceptablesFaire en sorte que AcceptableChoice() renvoie toujours false. Utile lorsqu'il est nécessaire d'explorer toutes les segmentations
segment_nonalphabetic_scriptNe pas utiliser d'astuces spécifiques à l'alphabet. Défini à true dans le fichier de configuration de traineddata pour les scripts cursifs ou à hauteur fixe inhérente
save_doc_wordsEnregistrer les mots du document
fusionner_fragments_dans_la_matriceFusionner les fragments dans la matrice d'évaluation et les supprimer après la fusion
wordrec_enable_assocActivation de l'associateur
force_word_assocforce l'associateur à s'exécuter, quelle que soit la valeur de enable_assoc. Ceci est utilisé pour le CJK lorsque le regroupement des composants est nécessaire.
chop_enableActivation du hachoir
chop_vertical_creepFluage vertical
chop_new_seam_pileUtiliser le nouveau seam_pile
assume_fixed_pitch_char_segmentinclure une heuristique de hauteur fixe dans la segmentation des caractères
wordrec_skip_no_truth_wordsNe lancer l'OCR que pour les mots dont la vérité a été enregistrée dans le BlamerBundle
wordrec_debug_blamerImprimer les messages de débogage du blamer
wordrec_run_blamerEssayer de rejeter la responsabilité des erreurs
save_alt_choicesSauvegarder les chemins alternatifs trouvés lors de la recherche de découpage et de segmentation
langue_modèle_ngramme_onActiver/désactiver l'utilisation du modèle de ngrammes de caractères
utilisation_du_modèle_de_langue_de_nagramme_de_langue only_first_uft8_stepN'utiliser que la première étape UTF8 de la chaîne donnée lors du calcul des probabilités logarithmiques.
espace_du_modèle_de_langue_de_nagramme_de_langue delimited_languageLes mots sont délimités par des espaces
incertitude_des_modèles_de_langue_utilisés_sigmoïdauxUtiliser le score sigmoïdal pour la certitude
tessedit_resegment_from_boxesPrendre la segmentation et l'étiquetage dans le fichier de la boîte
tessedit_resegment_from_line_boxesConversion d'un fichier de boîtes de mots/lignes en fichiers de boîtes de caractères
tessedit_train_from_boxesGénérer des données d'apprentissage à partir de caractères encadrés
tessedit_faire_des_boîtes_à_partir_de_boîtesGénérer plus de boîtes à partir des caractères encadrés
tessedit_train_line_recognizerDécomposition de l'entrée en lignes et remappage des cases si elles sont présentes
tessedit_dump_pageseg_imagesVider les images intermédiaires réalisées lors de la segmentation de la page
tessedit_do_invertEssayez d'inverser l'image dans `LSTMRecognizeWord`
tessedit_ambigs_trainingFormation aux ambiguïtés
tessedit_adaption_debugGénérer et imprimer des informations de débogage pour l'adaptation
applybox_learn_chars_and_char_frags_modeApprenez à la fois les fragments de caractères (comme c'est le cas dans le mode spécial de faible exposition) et les caractères non fragmentés.
applybox_learn_ngrams_modeChaque boîte de délimitation est supposée contenir des ngrammes. Seuls les ngrammes dont les contours se chevauchent horizontalement sont appris.
tessedit_display_outwordsDessiner des mots de sortie
tessedit_dump_choicesChoix des caractères de vidage
tessedit_timing_debugImprimer les statistiques de temps
tessedit_fix_fuzzy_spacesEssayer d'améliorer les espaces flous
tessedit_unrej_any_wdNe vous souciez pas de la plausibilité des mots
tessedit_fix_hyphensCroquer des doubles traits d'union ?
tessedit_enable_doc_dictAjouter des mots au dictionnaire du document
tessedit_debug_fontsInformations sur les polices de caractères par caractère
tessedit_debug_block_rejectionStatistiques sur les blocs et les rangs
tessedit_enable_bigram_correctionActiver la correction basée sur le dictionnaire de bigrammes de mots.
tessedit_enable_dict_correctionPermet la correction d'un seul mot en fonction du dictionnaire.
activation de l'élimination du bruitSuppression et réaffectation conditionnelle des petits contours lorsqu'ils perturbent l'analyse de la mise en page, en déterminant les diacritiques par rapport au bruit
tessedit_minimal_rej_pass1Effectuer un rejet minimal sur la sortie de la passe 1
tessedit_test_adaptionCritères d'adaptation des tests
test_ptTest de point
paragraphe_texte_baséDétection des paragraphes après la reconnaissance du texte (plus précise)
lstm_use_matrixUtiliser la matrice de notation/la recherche par faisceau avec lstm
tessedit_good_quality_unrejRéduire les rejets de bons documents
tessedit_use_reject_spacesRejeter les espaces ?
tessedit_preserve_blk_rej_perfect_wdsNe rejette que les mots partiellement rejetés dans le bloc de rejet
tessedit_preserve_row_rej_perfect_wdsRejeter uniquement les mots partiellement rejetés dans la ligne de rejet
tessedit_dont_blkrej_good_wdsUtiliser la métrique de qualité de la segmentation des mots
tessedit_dont_rowrej_good_wdsUtiliser la métrique de qualité de la segmentation des mots
tessedit_row_rej_good_docsAppliquer le rejet des rangs aux bons documents
tessedit_reject_bad_qual_wdsRejeter tous les fichiers de mauvaise qualité
tessedit_debug_doc_rejectionStatistiques de la page
tessedit_debug_quality_metricsSortie des données dans le fichier de débogage
bland_unrejpotentiel de non-réalisation en l'absence de contrôles
unlv_tilde_crunchingMarquer les v. mauvais mots pour le croisement de tilde
hocr_font_infoAjouter des informations sur les polices de caractères à la sortie de hocr
boîtes à caractèresAjouter les coordonnées de chaque caractère à la sortie hocr
crunch_early_merge_tess_failsAvant la crise des mots ?
crunch_early_convert_bad_unlv_chsSortir ~^ plus tôt que prévu ?
crunch_terrible_garbageComme le dit le texte
crunch_leave_ok_stringsNe pas toucher aux cordes sensibles
crunch_accept_okUtiliser l'acceptabilité dans okstring
crunch_leave_accept_stringsNe pas écraser les cordes sensibles
crunch_include_numeralsChiffres alpha du violon
tessedit_prefer_joined_punctRécompenser la ponctuation
tessedit_write_block_separatorsÉcriture de séparateurs de blocs dans la sortie
tessedit_write_rep_codesEcrire un code de répétition
tessedit_write_unlvÉcrire un fichier de sortie .unlv
tessedit_create_txtÉcriture d'un fichier de sortie .txt
tessedit_create_hocrRédiger un fichier de sortie hOCR au format .html
tessedit_create_altoÉcriture d'un fichier .xml ALTO
tessedit_create_lstmboxÉcriture d'un fichier .box pour l'apprentissage du LSTM
tessedit_create_tsvÉcriture d'un fichier de sortie .tsv
tessedit_create_wordtrboxÉcriture d'un fichier de sortie .box au format WordStr
tessedit_créer_pdfRédiger un fichier de sortie .pdf
textonly_pdfCréer un PDF avec une seule couche de texte invisible
suspect_constrain_1IlUNLV garder 1Il chars rejetés
tessedit_minimal_rejectionNe rejeter que les échecs de Tess
tessedit_zero_rejectionNe rejetez RIEN
tessedit_word_for_wordFaire en sorte que la sortie comporte exactement un mot par WERD
tessedit_zero_kelvin_rejectionNe rien rejeter du tout
tessedit_rejection_debugDébogage de l'adaptation
tessedit_flip_0ORenversement contextuel 0O O0
rej_trust_doc_dawgUtiliser DOC dawg dans le détecteur de conf. 11l
rej_1Il_use_dict_wordUtiliser le test de dictée
rej_1Il_trust_permuter_typeNe pas vérifier deux fois
rej_use_tess_acceptedContrôle individuel des rejets
rej_use_tess_blanksContrôle individuel des rejets
rej_use_good_permContrôle individuel des rejets
rej_use_sensible_wdExtension du contrôle des permutations
rej_alphas_in_number_permExtension du contrôle des permutations
tessedit_create_boxfileÉdition de texte avec des encadrés
tessedit_write_imagesCapture de l'image à partir de l'IPE
mode_affichage_interactifExécuter de manière interactive ?
tessedit_override_permuterSelon dict_word
tessedit_use_primary_params_modelEn mode multilingue, utiliser le modèle params de la langue principale
textord_tabfind_show_vlinesRecherche de ligne de débogage
textord_use_cjk_fp_modelUtiliser le modèle CJK à pas fixe
poly_allow_detailed_fxPermettre aux extracteurs de caractéristiques de voir le contour original
tessedit_init_config_onlyInitialiser uniquement avec le fichier de configuration. Utile si l'instance n'est pas utilisée pour l'OCR mais uniquement pour l'analyse de la mise en page.
textord_equation_detectActiver le détecteur d'équations
textord_tabfind_vertical_textActiver la détection verticale
textord_tabfind_force_vertical_textForcer l'utilisation du mode de page de texte vertical
préserver_les_espaces_inter-motsPréserver les espaces inter-mots multiples
pageseg_apply_music_maskDétecter la portée musicale et supprimer les éléments qui se croisent
mode textord_single_heightLe script n'a pas de hauteur x, il faut donc utiliser un mode unique
tosp_old_to_methodLes statistiques de l'espace utilisent le hachage préalable ?
tosp_old_to_constrain_sp_knLimiter les valeurs relatives des écarts entre les mots et à l'intérieur des mots pour old_to_method.
tosp_only_use_prop_rowsLes stats de blocs pour utiliser des rangs à pas fixe ?
tosp_force_wordbreak_on_punctForcer les sauts de mots sur les ponctuels pour couper les longues lignes dans les langues non délimitées par des espaces
tosp_use_pre_choppingLes statistiques de l'espace utilisent le hachage préalable ?
tosp_old_to_bug_fixCorrection d'un bogue suspecté dans un ancien code
tosp_block_use_cert_spacesUniquement les espaces OBVIOUS
tosp_row_use_cert_spacesUniquement les espaces OBVIOUS
tosp_narrow_blobs_not_certUniquement les espaces OBVIOUS
tosp_row_use_cert_spaces1Uniquement les espaces OBVIOUS
tosp_recovery_isolated_row_statsUtiliser la rangée seule lorsque les espaces de certitude sont insuffisants
tosp_only_small_gaps_for_kernMeilleure estimation
tosp_all_flips_fuzzyPassez TOUT au contexte ?
tosp_fuzzy_limit_allNe pas restreindre la limite floue kn->sp aux tableaux
tosp_stats_use_xht_gapsUtilisation à l'intérieur de l'espace xht pour les ruptures wd
tosp_use_xht_gapsUtilisation à l'intérieur de l'espace xht pour les ruptures wd
tosp_only_use_xht_gapsA n'utiliser qu'à l'intérieur de l'espace xht pour les ruptures de wd
tosp_rule_9_test_punctNe pas changer de place à côté d'une ponctuation
tosp_flip_fuzz_kn_to_spRetournement par défaut
tosp_flip_fuzz_sp_to_knRetournement par défaut
tosp_improve_threshPermettre une heuristique d'amélioration
textord_no_rejectsNe pas supprimer les blobs de bruit
textord_show_blobsAfficher les blobs non triés
textord_show_boxesAfficher les blobs non triés
mots_bruitsRejeter les mots bruyants
textord_noise_rejrowsRejeter les lignes bruyantes
textord_noise_debugDéboguer le détecteur de déchets des rangées
classify_learn_debug_strLa classe str pour déboguer l'apprentissage
fichier_mots_utilisateurUn nom de fichier contenant des mots fournis par l'utilisateur.
mots_utilisateur_suffixeUn suffixe de mots fournis par l'utilisateur et situés dans tessdata.
fichier_modèles_utilisateurUn nom de fichier de motifs fournis par l'utilisateur.
motifs_utilisateur_suffixeUn suffixe de motifs fournis par l'utilisateur et situés dans tessdata.
fichier_de_mots_ambigus_de_sortieFichier de sortie pour les ambiguïtés trouvées dans le dictionnaire
mot_à_déboguerMot pour lequel les informations de débogage du stoppeur doivent être imprimées sur stdout
tessedit_char_blacklistListe noire des caractères à ne pas reconnaître
tessedit_char_whitelistListe blanche de caractères à reconnaître
tessedit_char_unblacklistListe de caractères à ignorer tessedit_char_blacklist
tessedit_write_params_to_fileÉcrit tous les paramètres dans le fichier donné.
applybox_exposure_pattern.expLa valeur d'exposition suit ce modèle dans le nom du fichier image. Les noms des fichiers d'image doivent être de la forme [lang].[fontname].exp [num].tif
chs_leading_punct ('`"Ponctuation en tête
chs_trailing_punct1).,;: ?!er Ponctuation de fin
chs_trailing_punct2 )'`"ème ponctuation de fin
contours_odd%Nombre de contours non standard
outlines_2 ij!?%": ;Nombre de contours non standard
ponctuation_numérique.,Ponct. chs attendus DANS les nombres
unrecognised_charCaractère de sortie pour les blobs non identifiés
ok_repeated_ch_non_alphanum_wds-?*=Permettre au NN de se détacher
conflict_set_I_l_1Il1 []Il1 conflict set
type de fichier.tifExtension du nom de fichier
tessedit_load_sublangsListe des langues à charger avec celle-ci
page_separatorSéparateur de pages (par défaut, le caractère de contrôle du saut de page)
classifier_char_norm_range.2Plage de normalisation des caractères ...
ratio_de_classification_max.5Rapport de veto entre les notations des classificateurs
marge_de_certitude_max.5Veto différence entre les certitudes des classificateurs
seuil_matcher_good.125Bon match (0-1)
résultat_adaptatif_fiable_matcherGrand Match (0-1)
seuil_parfait_du_matelier.02Correspondance parfaite (0-1)
matcher_bad_match_pad.15Mauvais match pad (0-1)
marge_rating_matcher.1Marge du nouveau modèle (0-1)
taille_du_bruit_de_la_matrice2Longueur moyenne du bruit
matcher_clustering_max_angle_delta.015Delta d'angle maximal pour le regroupement de prototypes
classer_misfit_junk_penaltyPénalité à appliquer lorsqu'un numéro autre qu'un numéro d'ordre se trouve verticalement en dehors de la position prévue de la ligne de texte
échelle de notation.5Facteur d'échelle du classement
échelle de certitude0Facteur d'échelle de certitude
tessedit_class_miss_scale.00390625Facteur d'échelle pour les caractéristiques non utilisées
facteur_d'élagage_adapté_à_la_classification.5Élaguer les résultats mal adaptés qui sont beaucoup plus mauvais que le meilleur résultat
seuil_d'élagage_adapté_à_la_classification-1Seuil à partir duquel classify_adapted_pruning_factor démarre
classer les fragments de caractères garbage_certainty_threshold-3Exclure de la formation et de l'adaptation les fragments qui ne ressemblent pas à des personnages entiers
speckle_large_max_size.3Taille maximale du chatoiement
pénalité_de_rating_de_specklePénalité s'ajoutant à l'évaluation la plus défavorable en matière de bruit
xheight_penalty_subscripts.125Pénalité (0,1 = 10 %) ajoutée si le mot contient des indices ou des exposants, mais qu'il est correct par ailleurs.
xheight_penalty_inconsistent.25Pénalité de score (0,1 = 10%) ajoutée si une hauteur x est incohérente.
segment_penalty_dict_frequent_wordMultiplicateur de score pour les correspondances de mots qui ont une bonne casse et qui sont fréquents dans la langue donnée (plus le score est faible, mieux c'est).
segment_penalty_dict_case_ok.1Multiplicateur de score pour les mots correspondant à une bonne casse (plus il est faible, mieux c'est).
segment_penalty_dict_case_bad.3125Multiplicateur de score par défaut pour les correspondances de mots, ce qui peut poser des problèmes de casse (plus il est faible, mieux c'est).
segment_penalty_dict_nonword.25Multiplicateur de score pour les segmentations de fragments de glyphes qui ne correspondent pas à un mot du dictionnaire (plus il est faible, mieux c'est).
segment_penalty_garbage.5Multiplicateur de score pour les chaînes mal casées qui ne figurent pas dans le dictionnaire et qui ressemblent généralement à des déchets (plus il est faible, mieux c'est).
échelle de certitudeFacteur d'échelle de certitude
stopper_nondict_certainty_base-2.5Seuil de certitude pour les mots non-dictés
stopper_phase2_certainty_rejection_offsetRejeter la compensation de certitude
stopper_certainty_per_char-0.5Certitude d'ajouter pour chaque caractère de dictée au-delà de la petite taille du mot.
stopper_la_mauvaiseté_des_caractères_autorisablesVariation de certitude maximale autorisée dans un mot (en sigma)
doc_dict_pending_thresholdPire certitude pour l'utilisation du dictionnaire en attente
doc_dict_certainty_threshold-2.25Pire certitude pour les mots qui peuvent être insérés dans le dictionnaire du document
seuil d'incertitude-2.25Bonne limite d'utilisation des blobs
chop_split_dist_knob.5Réglage de la longueur de la fente
chop_overlap_knob.9Ajustement du chevauchement fractionné
chop_center_knob.15Ajustement du centre de la fente
bouton d'affûtage.06Réglage de la netteté de l'image
bouton de modification de la largeur du chopRéglage de la largeur
chop_ok_split00Limite de fractionnement OK
chop_good_split0Bonne limite de fractionnement
segsearch_max_char_wh_ratioRapport maximal entre la largeur et la hauteur des caractères