Définition des variables de configuration de Tesseract dans C# ;

This article was translated from English: Does it need improvement?
Translated
View the article in English

L'interface IronOCR Tesseract permet un contrôle total des variables de configuration de Tesseract par l'intermédiaire de la fonction

Classe IronOCR.TesseractConfiguration

Exemple de code de configuration de Tesseract

using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
Imports IronOcr

Private Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.ReadBarCodes = False
Ocr.Configuration.BlackListCharacters = "`ë ^"
Ocr.Configuration.RenderSearchablePdf = True
Ocr.Configuration.RenderHocr = True
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
Ocr.Configuration.TesseractVariables ("tessedit_parallelize") = False

Using Input = New OcrInput("images\image.png")
 Dim Result = Ocr.Read(Input)
 Console.WriteLine(Result.Text)
End Using
VB   C#

Liste de toutes les variables de configuration de Tesseract

Elles peuvent être définies en utilisant IronTesseract.Configuration.TesseractVariables ["clé"] = valeur;

Variable de configuration du TesseractDéfautSignification
classifier_num_cp_niveaux3Nombre de niveaux d'élagage de classe
textord_debug_tabfind0Onglet Débogage
textord_debug_bugs0Activer les sorties relatives aux bogues dans la recherche d'onglets
textord_testregion_left-1Bord gauche du rectangle de rapport de débogage
textord_testregion_top-1Bord supérieur du rectangle de rapport de débogage
textord_testregion_droite2147483647Bord droit du rectangle de débogage
textord_testregion_bottom2147483647Bord inférieur du rectangle de débogage
textord_tabfind_show_partitions0Afficher les limites de la partition, attendre si >1
devanagari_split_debuglevel0Niveau de débogage pour le processus split shiro-rekha.
edges_max_children_per_outline10Nombre maximal d'enfants à l'intérieur d'un contour de caractère
couches_max_enfants_arêtes5Nombre maximal de couches d'enfants imbriqués à l'intérieur d'un contour de caractère
bords_enfants_par_petit-enfant10Rapport d'importance pour les contours du mandrin
limite_compte_des_enfants_des_arêtes45Nombre maximum de trous automobilerisés dans le blob
bords_min_nonhole12Pixels minimums pour les caractères potentiels dans la boîte
rapport_patharea_bords40Lentille maximale/surface pour un contour d'enfant acceptable
textord_fp_chop_error2Courbure maximale automobilerisée des cellules de la hache
textord_tabfind_show_images0Afficher les taches d'image
textord_skewsmooth_offset4Pour le facteur lisse
textord_skewsmooth_offset21Pour le facteur lisse
textord_test_x-2147483647coordonnateur du pt de test
textord_test_y-2147483647coordonnateur du pt de test
textord_min_blobs_in_row4Min blobs before gradient counted
textord_spline_minblobs8Min blobs dans chaque segment de spline
texteord_spline_medianwin6Taille de la fenêtre pour la segmentation spline
textord_max_blob_overlaps4Nombre maximum de blobs qu'un big blob peut chevaucher
textord_min_xheight10Pixel crédible minimum xhauteur
essais en ligne textord_lms_line12Nombre de lignes à effectuer
compte des pertes de l'ancienbl_holed_losscount10Nombre maximal de lignes perdues avant l'utilisation de la ligne de repli
pitsync_linear_version6Utiliser un nouvel algorithme rapide
pitsync_fake_depth1Génération maximale de fausses avances
textord_tabfind_show_strokewidths0Afficher l'épaisseur des traits
textord_dotmatrix_gap3Écart maximal entre les pixels pour un pas de pixel brisé
textord_debug_block0Bloc à déboguer sur
gamme_de_pitch_du_texte2Essai de portée maximale sur le terrain
mots-clés_veto_power5Rangs nécessaires pour mettre un veto en minorité
équationdetect_save_bi_image0Sauvegarde de l'image d'entrée
equationdetect_save_spt_image0Enregistrer l'image d'un caractère spécial
equationdetect_save_seed_image0Enregistrer l'image de départ
equationdetect_save_merged_image0Enregistrer l'image fusionnée
poly_debug0Déboguer l'ancien poly
poly_large_objets_mieux1Plus d'informations précises sur des sujets vastes
wordrec_display_splits0Afficher les fractionnements
textord_debug_printable0Rendre les fenêtres de débogage imprimables
textord_space_size_is_variable0Si c'est le cas, les espaces délimitant les mots sont supposés avoir une largeur variable, même si les caractères ont une hauteur fixe.
textord_tabfind_show_initial_partitions0Afficher les limites de la partition
textord_tabfind_show_reject_blobs0Afficher les blobs rejetés comme du bruit
textord_tabfind_show_columns0Afficher les limites des colonnes
textord_tabfind_show_blocks0Afficher les limites du bloc final
textord_tabfind_find_tables1détection de la table d'exécution
devanagari_split_debugimage0Création ou non d'une image de débogage pour le processus de fractionnement shiro-rekha.
textord_show_fixed_cuts0Tracer les limites des cellules à pas fixe
arêtes_utilisation_nouvelle_complexité_des_sorties_de_sorties_de_sorties0Utiliser le nouveau module de complexité des contours
edges_debug0activer le débogage pour ce module
bords_enfants_fixe0Supprimez les parents de type "boxy" des enfants de type "char"
gapmap_debug0Indiquer les blocs qui ont des tables
gapmap_use_ends0Utiliser de grands espaces au début et à la fin des lignes
gapmap_no_isolated_quanta0Veiller à ce que les lacunes ne soient pas inférieures à 2quanta de large
textord_heavy_nr0Supprimer énergiquement le bruit
textord_show_initial_rows0Affichage de l'accumulation des lignes
textord_show_parallel_rows0Afficher les lignes en corrélation avec la page
textord_show_expanded_rows0Afficher les lignes après l'expansion
textord_show_final_rows0Afficher les rangs après l'ajustement final
textord_show_final_blobs0Afficher les limites du blob après le pré-assemblage
textord_test_paysage0Les tests se réfèrent à la terre/au port
textord_parallel_baselines1Forcer les lignes de base parallèles
lignes de base droites0Forcer les lignes de base droites
textord_old_baselines1Utiliser l'ancien algorithme de base
textord_old_xheight0Utiliser l'ancien algorithme xheight
textord_fix_xheight_bug1Utiliser une ligne de base spline
textord_fix_makerow_bug1Empêcher les lignes de base multiples
textord_debug_xheights0Test des algorithmes xheight
textord_biased_skewcalc1Estimation de l'asymétrie du biais en fonction de la longueur de la ligne
textord_interpolating_skew1Interpoler à travers les lacunes
textord_new_initial_xheight1Utiliser le mécanisme de test xheight
textord_debug_blob0Imprimer les informations sur le blob de test
textord_really_old_xheight0Utiliser l'original de wiseowl xheight
textord_oldbl_debug0Déboguer l'ancienne génération de lignes de base
textord_debug_baselines0Génération d'une ligne de base de débogage
textord_oldbl_paradef1Utiliser le mécanisme par défaut
textord_oldbl_split_splines1Cannelures à gradins fendus
textord_oldbl_merge_parts1Fusionner des partitions suspectes
oldbl_corrfix1Améliorer la corrélation des hauteurs
oldbl_xhfix0Correction d'un bug dans le seuil des modes pour les hauteurs x
textord_ocropus_mode0Établir des lignes de base pour ocropus
textord_tabfind_only_strokewidths0Exécuter uniquement les largeurs de trait
textord_tabfind_show_initialtabs0Afficher les candidats aux onglets
textord_tabfind_show_finaltabs0Afficher les vecteurs des onglets
textord_show_tables0Afficher les régions du tableau
textord_tablefind_show_mark0Tableau de débogage marquant les étapes en détail
textord_tablefind_show_stats0Afficher les statistiques de la page utilisées dans la recherche de tableaux
textord_tablefind_recognize_tables0Active l'outil de reconnaissance des tableaux pour la mise en page et le filtrage des tableaux.
textord_all_prop0Tous les documents sont des textes proportionnels
textord_debug_pitch_test0Débogage sur le test du pas fixe
textord_disable_pitch_test0Désactiver l'algorithme de pas fixe dp
textord_fast_pitch_test0Faire un algorithme de tangage encore plus rapide
textord_debug_pitch_metric0Rédiger des documents métriques complets
textord_show_row_cuts0Tracer des coupes au niveau des rangs
textord_show_page_cuts0Effectuer des coupes au niveau de la page
textord_pitch_cheat0Utiliser la bonne réponse pour fixe/prop
textord_blockndoc_fixed0Tentative d'un document/bloc entier à hauteur fixe
textord_show_initial_words0Afficher des mots séparés
textord_show_new_words0Afficher des mots séparés
textord_show_fixed_words0Affichage de mots forcés à hauteur fixe
textord_blocksall_fixed0Se plaindre des blocs d'accessoires
textord_blocksall_prop0Se plaindre des blocs à hauteur fixe
textord_blocksall_testing0Déchargez les statistiques en vous lamentant
mode_test_textord0Effectuer le test de courant
mots_de_pitch_échellemots_grands0Scores sur les grands mots
textord_restore_underlines1Découper les soulignements et les remettre en place
textord_fp_chopping1Effectuer un hachage à hauteur fixe
textord_force_make_prop_words0Forcer la segmentation proportionnelle des mots sur toutes les lignes
textord_chopper_test0L'hélico est en cours de test.
wordrec_display_all_blobs0Afficher les blobs
wordrec_blob_pause0Pause du Blob
liste_de_fichiers_de_flux0Stream d'une liste de fichiers à partir de stdin
fichier_débogageFichier vers lequel envoyer la sortie tprintf
classer_le_nom_de_la_police_de_polices_de_polices_de_policesPolice inconnueDéfaut font name to be used in training
titre du documentTitre du document de sortie (utilisé pour hOCR et la sortie PDF)
pointproduitautomobileFonction utilisée pour le calcul du produit de points
classifier_cp_angle_pad_loose45Class Pruner Angle Pad Loose
classifier_cp_angle_pad_medium20Classe Tampon d'élagage à angle moyen
classifier_cp_angle_pad_tight10CLass Pruner Angle Pad Tight
classifier_cp_end_pad_loose0.5Classe Tampon d'élagage en vrac
classifier_cp_end_pad_medium0.5Classe Tampon d'élagage moyen
classifier_cp_end_pad_tight0.5Class Pruner End Pad Tight
classifier_cp_side_pad_loose2.5Classe Tampon latéral d'élagueur Détaché
classifier_cp_side_pad_medium1.2Class Pruner Side Pad Medium
classifier_cp_side_pad_tight0.6Class Pruner Side Pad Tight
classifier_pp_angle_pad45Plaque d'angle pour élagueuse Proto
classifier_pp_end_pad0.5Proto Prune End Pad
classifier_pp_side_pad2.5Coussinet latéral pour élagueuse Proto
classer_pente_min0.414214Pente en dessous de laquelle les lignes sont dites horizontales
classer_max_pente2.41421Pente au-dessus de laquelle les lignes sont dites verticales
classifier_norm_adj_midpoint32Ajuster le point médian de la norme ...
classifier_norm_adj_curl2La norme permet d'ajuster l'enroulement ...
longueur_de_la_caractéristique_de_la_classification0.05Pico Feature Length
seuil de soulignement du texte0.5Fraction de la largeur occupée
bords_childarea0.5Fraction de surface minimale du contour de l'enfant
edges_boxarea0.875Fraction de surface minimale du petit-enfant pour la boîte
textord_fp_chop_snap0.5Distance maximale du point de coupe par rapport au sommet
gapmap_big_gaps1.75multiplicateur xht
textord_spline_shift_fraction0.02Fraction de l'interligne pour le quad
textord_spline_outlier_fraction0.1Fraction de l'interligne pour la valeur aberrante
textord_skew_ile0.5Ile de gradients pour l'inclinaison de la page
textord_skew_lag0.02Retard pour l'asymétrie sur l'accumulation de lignes
textord_linespace_iqrlimit0.2Prix maximal/ médian pour l'espace interligne
limite_de_largeur_du_texte8Largeur maximale des blobs pour former des rangées
textord_chop_width1.5Largeur maximale avant coupe
facteur_d'expansion_du_texte1Facteur d'expansion des lignes dans expand_rows
textord_overlap_x0.375Fraction d'espace pour un bon chevauchement
textord_minxh0.25fraction de la taille des lignes pour la hauteur minimale
textord_min_linesize1.25* hauteur du blob pour la taille initiale des lignes
textord_excess_blobsize1.3Nouvelle rangée créée si le blob fait une rangée de cette taille
seuil d'occupation0.4Fraction du quartier
largeur_du_soulignement_du_texte2Multiple de line_size pour le soulignement
textord_min_blob_height_fraction0.75Hauteur/top minimum du blob pour inclure le top du blob dans les statistiques xheight
textord_xheight_mode_fraction0.4Hauteur minimale de la pile pour obtenir la hauteur x
textord_ascheight_mode_fraction0.08Hauteur minimale de la pile pour obtenir la hauteur de la pile
textord_descheight_mode_fraction0.08Hauteur minimale de la pile pour obtenir une hauteur inférieure
textord_ascx_ratio_min1.25Cap min/hauteur
textord_ascx_ratio_max1.8Hauteur max. du capuchon/x
textord_descx_ratio_min0.25Min desc/xheight
textord_descx_ratio_max0.6Description maximale/hauteur max
textord_xheight_error_margin0.1Variation acceptée
oldbl_xhfract0.4Fraction de l'est autorisée dans le calcul
oldbl_dot_error_size1.26Rapport d'aspect maximal d'un point
textord_oldbl_jumplimit0.15Fraction X pour la nouvelle partition
pitsync_joined_edge0.75Dist inside big blob for chopping
pitsync_offset_freecut_fraction0.25Fraction de la coupe pour les coupes franches
textord_tabvector_vertical_gap_fraction0.5fraction maximale de la largeur moyenne du blob autorisée pour les lacunes verticales dans le texte vertical
textord_tabvector_vertical_box_ratio0.5Fraction de boîtes d'allumettes nécessaires pour déclarer une ligne verticale
textord_projection_scale0.2Taux de ding pour les coupes intermédiaires
facteur_d'équilibre_du_texte1Taux de ding pour les cellules déséquilibrées
facteur_de_lissage_des_mots_de_texte0.05Lissage des statistiques sur les écarts
facteur de lissage de la largeur du texte0.1Statistiques sur la largeur de lissage
mot_texte_largeur_ile0.4Ile de largeurs de blob pour l'espace est
espace_maximum_des_mots_du_texte4Multiple de xheight
textord_words_default_maxspace3.5Troisième espace le plus crédible possible
textord_words_default_minspace0.6Fraction de xheight
textord_words_min_minspace0.3Fraction de xheight
textord_words_default_nonspace0.2Fraction de xheight
textord_mots_initiaux_inférieurs0.25Taille initiale maximale de la grappe
textord_mots_initiaux_supérieurs0.15Espacement initial minimal des grappes
textord_words_minlarge0.75Fraction de lacunes valides nécessaires
textord_words_pitchsd_threshold0.04Seuil de synchronisation de la hauteur
textord_words_def_fixed0.016Seuil de fixation définitive
textord_words_def_prop0.09Seuil de l'accessoire définitif
textord_pitch_rowsimilarity0.08Fraction de xheight for sameness
mots_initiaux_inférieurs0.5Taille initiale maximale de la grappe
mots_initiaux_supérieurs0.15Espacement initial minimal des grappes
mots_default_prop_nonspace0.25Fraction de xheight
mots_default_fixed_space0.75Fraction de xheight
mots_limite_fixe_par_défaut0.6Variation de la taille autorisée
textord_mots_definite_spread0.3Région d'espacement non floue
textord_spacesize_ratiofp2.8Rapport minimal espace/non-espace
textord_spacesize_ratioprop2Rapport minimal espace/non-espace
textord_fpiqr_ratio1.5Seuil IQR pitch/Gap IQR
textord_max_pitch_iqr0.2Xh fraction du bruit en hauteur
textord_fp_min_width0.5Largeur minimale des blocs décents
décalage_souligné_du_texte0.1Fraction de x à ignorer
ambigs_debug_level0Niveau de débogage pour les ambiguïtés unichar
classifier le niveau de débogage0Classifier le niveau de débogage
méthode_norme_classique1Méthode de normalisation ...
matcher_debug_level0Niveau de débogage de l'interprète
drapeaux_debug_matcher0Drapeaux de débogage du comparateur
niveau_debug de classify_learning0Apprendre le niveau de débogage :
matcher_permanent_classes_min1Nombre minimum de classes permanentes
matcher_min_exemples_pour_ prototyping3Seuil de configuration fiable
exemples_suffisants_de_matrice_de_matrice_de_matrice_de_matrice_de_matrice_de_matrice for_prototyping5Permettre l'adaptation même si les ambiguïtés n'ont pas été vues
seuil_de_classification_d'adaptation_du_proto230Seuil pour les bons protos pendant l'adaptation 0-255
seuil_de_classification_d'adaptation_des_caractéristiques230Seuil pour les bonnes caractéristiques lors de l'adaptation 0-255
seuil_de_classification_du_pruner229Classe Seuil d'élagage 0-255
multiplicateur_de_classe_de_pruner15Multiplicateur d'élagueurs de classe 0-255 :
classifier_cp_cutoff_strength7Classe Élagueur CoupeurRésistance :
classifier_integer_matcher_multiplier10Multiplicateur de l'outil de recherche de nombres entiers 0-255 :
dawg_debug_level0Régler sur 1 pour des informations générales de débogage, sur 2 pour plus de détails, sur 3 pour voir tous les messages de débogage
trait d'union_niveau_debug0Niveau de débogage pour les mots à trait d'union.
taille_des_mots_arrêtés2Taille du mot dicté à traiter comme un mot non dicté
niveau_debug_stoppeur0Niveau de débogage de Stopper
tessedit_truncate_wordchoice_log10Nombre maximal de mots à conserver dans la liste
max_permuter_attempts10000Nombre maximum de choix de caractères différents à prendre en compte lors de la permutation. Cette limite est particulièrement utile lorsque des modèles d'utilisateur sont spécifiés, car des modèles trop génériques peuvent amener dawg search à explorer un nombre trop important d'options.
repair_unchopped_blobs1Corriger les blobs qui ne sont pas hachés
chop_debug0Chop debug
chop_split_length10000Longueur de la fente
chop_same_distance2Même distance
chop_min_outline_points6Nombre minimum de points sur le schéma
taille_de_la_pile_de_chop_seam150Nombre maximal de coutures dans la pile de coutures
chop_inside_angle-50Angle intérieur min
chop_min_outline_area2000Superficie minimale des contours
chop_centered_maxwidth90Largeur des taches (plus petites) hachées au-dessus de laquelle nous ne nous soucions pas qu'une tache ne soit pas près du centre.
chop_x_y_weight3X / Y longueur poids
wordrec_debug_level0Niveau de débogage pour wordrec
wordrec_max_join_chunks4Nombre maximum de pièces cassées à associer
segsearch_debug_level0Niveau de débogage de SegSearch
segsearch_max_pain_points2000Nombre maximum de points de douleur stockés dans la file d'attente
segsearch_max_futile_classifications20Nombre maximum de classifications de points douloureux par morceau qui n'ont pas permis de trouver un meilleur choix de mots.
niveau_debug_du_modèle_de_langue0Niveau de débogage du modèle linguistique
ordre_des_modèles_de_langues8Ordre maximum du modèle de ngrammes de caractères
liste_de_viterbi_modèle_de_langue_de_langue_de_langue_de_viterbi max_num_prunable10Nombre maximal d'arbres élagables (ceux pour lesquels PrunablePath() est vrai) entries in each viterbi list recorded in BLOB_CHOICEs
taille_max de_la_liste_de_viterbi_du_modèle_de_langue500Taille maximale des listes de viterbi enregistrées dans BLOB_CHOICEs
longueur_composée_min_du_modèle_de_langue3Longueur minimale des mots composés
wordrec_display_segmentations0Segmentation de l'affichage
tessedit_pageseg_mode6Mode de segmentation des pages : 0=osd uniquement, 1=auto+osd, 2=auto uniquement, 3=auto, 4=colonne, 5=block_vert, 6=block, 7=ligne, 8=mot, 9=mot_cercle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (Valeurs de l'enum PageSegMode dans tesseract/publictypes.h)
tessedit_ocr_engine_mode2Quel(s) moteur(s) d'OCR exécuter (Tesseract, LSTM, les deux). Par défaut, le moteur le plus précis est chargé et exécuté.
pageseg_devanagari_split_strategy0Utilisation ou non du processus de division de la première ligne pour les documents Devanagari lors de la segmentation des pages.
ocr_devanagari_split_strategy0Utiliser ou non le processus de découpage de la première ligne pour les documents Devanagari lors de l'ocr.
bidi_debug0Niveau de débogage pour BiDi
applybox_debug1Niveau de débogage
applybox_page0Numéro de la page à partir de laquelle les cases doivent être appliquées
tessedit_bigram_debug0Quantité de données de débogage pour la correction des bigrammes.
debug_noise_removal0Déboguer la réaffectation des petits contours
bruit_maxperblob8Nombre maximal de signes diacritiques à appliquer à un blob
mot_maximum de bruit16Nombre maximal de signes diacritiques à appliquer à un mot
debug_x_ht_level0Réestimer le débogage
qualité_min_initiale_alphas_reqd2les alphas dans un bon mot
tessedit_tess_adaption_mode39Algorithme de décision d'adaptation pour tess
multilang_debug_level0Imprime les informations de débogage multilang.
paragraphe_debug_level0Imprimer les informations de débogage du paragraphe.
tessedit_preserve_min_wd_len2Ne conservez que les mots plus longs que celui-ci
crunch_rating_max10Pour la longueur ajustée dans le classement par ch
indicateurs_pots_crunch1Combien d'indicateurs potentiels sont nécessaires ?
crunch_leave_lc_strings4Ne pas écraser les mots avec de longues chaînes de minuscules
crunch_leave_uc_strings4Ne pas écraser les mots avec de longues chaînes de minuscules
crunch_long_repetitions3Les mots croquants avec de longues répétitions
crunch_debug0Comme le dit le texte
fixsp_non_noise_limit1Combien d'ampoules non bruyantes de part et d'autre ?
fixsp_done_mode1Ce qui constitue fait pour l'espacement
debug_fix_space_level0Débogage contextuel de l'espace fixe
x_ht_acceptance_tolerance8Déviation maximale autorisée du sommet du blob en dehors des données de la police
x_ht_min_change8Changement minime dans le xht avant de l'essayer
superscript_debug0Niveau de débogage for sub & superscript fixer
qualité_jpg85Définir le niveau de qualité JPEG
user_defined_dpi0Spécifier le DPI de l'image d'entrée
min_character_to_try50Spécifier le nombre minimum de caractères à essayer pendant l'OSD
niveau_de_suspicion99Niveau du marqueur suspect
mots_courts_suspects2Ne soupçonnez pas de dict wds plus longs que cela
tessedit_reject_mode0Algorithme de rejet
tessedit_image_border2Rej blbs near image edge limit
min_sane_x_ht_pixels8Rejeter tout x-ht lt ou eq que celui-ci
tessedit_page_numéro-1-1 -> Toutes les pages, ou une page spécifique à traiter
tessedit_parallelize1Exécution en parallèle dans la mesure du possible
lstm_choice_mode2Permet d'inclure des choix de symboles alternatifs dans la sortie hOCR. Les valeurs d'entrée valides sont 0, 1 et 2. 0 est la valeur par défaut. Avec 1, les choix de symboles alternatifs par pas de temps sont inclus. Avec 2, les choix de symboles alternatifs sont extraits du processus CTC au lieu du réseau. Les choix sont cartographiés par caractère.
lstm_choice_iterations5Définit le nombre d'itérations en cascade pour la recherche de faisceau en mode lstm_choice_mode. Notez que lstm_choice_mode doit avoir une valeur supérieure à 0 pour produire des résultats.
tosp_debug_level0Données de débogage
tosp_enough_space_samples_for_median3ou devrions-nous utiliser la moyenne
tosp_redo_kern_limit10Nombre d'échantillons nécessaires à la réestimation de la ligne
tosp_few_samples40Nombre d'interstices requis avec 1 grand interstice à traiter comme une table
tosp_short_row20Aucun espace n'est requis avec quelques espaces pour utiliser les certificats
méthode_sanité_tosp1Comment éviter d'être ridicule
taille_du_bruit_maximale7Taille des pixels du bruit
textord_baseline_debug0Niveau de débogage de base
textord_noise_sizefraction10Fraction de la taille pour les maxima
textord_noise_translimit16Transitions pour un blob normal
textord_noise_sncount1super norm blobs to save row
utilisation_des_ambigs_pour_l'adaptation0Utiliser les ambigus pour décider de l'adaptation à un personnage
allow_blob_division1Utiliser des blocs divisibles pour le hachage
prioritize_division0Priorité à la division des blobs plutôt qu'au découpage
classifier_activer_apprentissage1Activer le classificateur adaptatif
tess_cn_matching0Correspondance normalisée des caractères
tess_bn_matching0Correspondance normalisée de base
classify_enable_adaptive_matcher1Activer le classificateur adaptatif
classifier_utiliser_des_modèles_préadaptés0Utiliser des modèles de classificateurs préadaptés
classifier_sauver_les_modèles_adaptés0Enregistrer les modèles adaptés dans un fichier
classifier_activer_le_débogueur_adaptatif0Activer le débogueur de match
classifier_non-linéaire_norm0Normalisation non linéaire de la densité des traits
désactiver les fragments de caractères1Ne pas inclure les fragments de caractères dans les résultats du classificateur
classifier les fragments de caractères de débogage0Afficher les fenêtres de débogage graphique pour la formation aux fragments
matcher_debug_separate_windows0Utilisez deux fenêtres différentes pour le débogage de l'appariement : une pour les prototypes et une pour les fonctionnalités.
mode_classique_bln_numerique0Supposons que l'entrée soit constituée de chiffres [0-9].
load_system_dawg1Chargez le mot système dawg.
load_freq_dawg1Chargez les mots fréquents dawg.
load_unambig_dawg1Chargez le mot sans ambiguïté dawg.
load_punc_dawg1Chargez le dawg avec des schémas de ponctuation.
load_number_dawg1Chargez le dawg avec des modèles de nombres.
load_bigram_dawg1Charger dawg avec des mots spéciaux bigrammes.
use_only_first_uft8_step0N'utiliser que la première étape UTF8 de la chaîne donnée lors du calcul des probabilités logarithmiques.
stopper_les_choix_non_acceptables0Faire en sorte que AcceptableChoice() renvoie toujours false. Utile lorsqu'il est nécessaire d'explorer toutes les segmentations
segment_nonalphabetic_script0Ne pas utiliser d'astuces spécifiques à l'alphabet. Défini à true dans le fichier de configuration de traineddata pour les scripts cursifs ou à hauteur fixe inhérente
save_doc_words0Enregistrer les mots du document
fusionner_fragments_dans_la_matrice1Fusionner les fragments dans la matrice d'évaluation et les supprimer après la fusion
wordrec_enable_assoc1Activation de l'associateur
force_word_assoc0force l'associateur à s'exécuter, quelle que soit la valeur de enable_assoc. Ceci est utilisé pour le CJK lorsque le regroupement des composants est nécessaire.
chop_enable1Activation du hachoir
chop_vertical_creep0Fluage vertical
chop_new_seam_pile1Utiliser le nouveau seam_pile
assume_fixed_pitch_char_segment0inclure une heuristique de hauteur fixe dans la segmentation des caractères
wordrec_skip_no_truth_words0Ne lancer l'OCR que pour les mots dont la vérité a été enregistrée dans le BlamerBundle
wordrec_debug_blamer0Imprimer les messages de débogage du blamer
wordrec_run_blamer0Essayer de rejeter la responsabilité des erreurs
save_alt_choices1Sauvegarder les chemins alternatifs trouvés lors de la recherche de découpage et de segmentation
langue_modèle_ngramme_on0Activer/désactiver l'utilisation du modèle de ngrammes de caractères
utilisation_du_modèle_de_langue_de_nagramme_de_langue only_first_uft8_step0N'utiliser que la première étape UTF8 de la chaîne donnée lors du calcul des probabilités logarithmiques.
espace_du_modèle_de_langue_de_nagramme_de_langue delimited_language1Les mots sont délimités par des espaces
incertitude_des_modèles_de_langue_utilisés_sigmoïdaux0Utiliser le score sigmoïdal pour la certitude
tessedit_resegment_from_boxes0Prendre la segmentation et l'étiquetage dans le fichier de la boîte
tessedit_resegment_from_line_boxes0Conversion d'un fichier de boîtes de mots/lignes en fichiers de boîtes de caractères
tessedit_train_from_boxes0Générer des données d'apprentissage à partir de caractères encadrés
tessedit_faire_des_boîtes_à_partir_de_boîtes0Générer plus de boîtes à partir des caractères encadrés
tessedit_train_line_recognizer0Décomposition de l'entrée en lignes et remappage des cases si elles sont présentes
tessedit_dump_pageseg_images0Vider les images intermédiaires réalisées lors de la segmentation de la page
tessedit_do_invert1Essayez d'inverser l'image dans `LSTMRecognizeWord`
tessedit_ambigs_training0Formation aux ambiguïtés
tessedit_adaption_debug0Générer et imprimer des informations de débogage pour l'adaptation
applybox_learn_chars_and_char_frags_mode0Apprenez à la fois les fragments de caractères (comme c'est le cas dans le mode spécial de faible exposition) et les caractères non fragmentés.
applybox_learn_ngrams_mode0Chaque boîte de délimitation est supposée contenir des ngrammes. Seuls les ngrammes dont les contours se chevauchent horizontalement sont appris.
tessedit_display_outwords0Dessiner des mots de sortie
tessedit_dump_choices0Choix des caractères de vidage
tessedit_timing_debug0Imprimer les statistiques de temps
tessedit_fix_fuzzy_spaces1Essayer d'améliorer les espaces flous
tessedit_unrej_any_wd0Ne vous souciez pas de la plausibilité des mots
tessedit_fix_hyphens1Croquer des doubles traits d'union ?
tessedit_enable_doc_dict1Ajouter des mots au dictionnaire du document
tessedit_debug_fonts0Informations sur les polices de caractères par caractère
tessedit_debug_block_rejection0Statistiques sur les blocs et les rangs
tessedit_enable_bigram_correction1Activer la correction basée sur le dictionnaire de bigrammes de mots.
tessedit_enable_dict_correction0Permet la correction d'un seul mot en fonction du dictionnaire.
activation de l'élimination du bruit1Suppression et réaffectation conditionnelle des petits contours lorsqu'ils perturbent l'analyse de la mise en page, en déterminant les diacritiques par rapport au bruit
tessedit_minimal_rej_pass10Effectuer un rejet minimal sur la sortie de la passe 1
tessedit_test_adaption0Critères d'adaptation des tests
test_pt0Test de point
paragraphe_texte_basé1Détection des paragraphes après la reconnaissance du texte (plus précise)
lstm_use_matrix1Utiliser la matrice de notation/la recherche par faisceau avec lstm
tessedit_good_quality_unrej1Réduire les rejets de bons documents
tessedit_use_reject_spaces1Rejeter les espaces ?
tessedit_preserve_blk_rej_perfect_wds1Ne rejette que les mots partiellement rejetés dans le bloc de rejet
tessedit_preserve_row_rej_perfect_wds1Rejeter uniquement les mots partiellement rejetés dans la ligne de rejet
tessedit_dont_blkrej_good_wds0Utiliser la métrique de qualité de la segmentation des mots
tessedit_dont_rowrej_good_wds0Utiliser la métrique de qualité de la segmentation des mots
tessedit_row_rej_good_docs1Appliquer le rejet des rangs aux bons documents
tessedit_reject_bad_qual_wds1Rejeter tous les fichiers de mauvaise qualité
tessedit_debug_doc_rejection0Statistiques de la page
tessedit_debug_quality_metrics0Sortie des données dans le fichier de débogage
bland_unrej0potentiel de non-réalisation en l'absence de contrôles
unlv_tilde_crunching0Marquer les v. mauvais mots pour le croisement de tilde
hocr_font_info0Ajouter des informations sur les polices de caractères à la sortie de hocr
boîtes à caractères0Ajouter les coordonnées de chaque caractère à la sortie hocr
crunch_early_merge_tess_fails1Avant la crise des mots ?
crunch_early_convert_bad_unlv_chs0Sortir ~^ plus tôt que prévu ?
crunch_terrible_garbage1Comme le dit le texte
crunch_leave_ok_strings1Ne pas toucher aux cordes sensibles
crunch_accept_ok1Utiliser l'acceptabilité dans okstring
crunch_leave_accept_strings0Ne pas écraser les cordes sensibles
crunch_include_numerals0Chiffres alpha du violon
tessedit_prefer_joined_punct0Récompenser la ponctuation
tessedit_write_block_separators0Écriture de séparateurs de blocs dans la sortie
tessedit_write_rep_codes0Ecrire un code de répétition
tessedit_write_unlv0Écrire un fichier de sortie .unlv
tessedit_create_txt0Écriture d'un fichier de sortie .txt
tessedit_create_hocr0Rédiger un fichier de sortie hOCR au format .html
tessedit_create_alto0Écriture d'un fichier .xml ALTO
tessedit_create_lstmbox0Écriture d'un fichier .box pour l'apprentissage du LSTM
tessedit_create_tsv0Écriture d'un fichier de sortie .tsv
tessedit_create_wordtrbox0Écriture d'un fichier de sortie .box au format WordStr
tessedit_créer_pdf0Rédiger un fichier de sortie .pdf
textonly_pdf0Créer un PDF avec une seule couche de texte invisible
suspect_constrain_1Il0UNLV garder 1Il chars rejetés
tessedit_minimal_rejection0Ne rejeter que les échecs de Tess
tessedit_zero_rejection0Ne rejetez RIEN
tessedit_word_for_word0Faire en sorte que la sortie comporte exactement un mot par WERD
tessedit_zero_kelvin_rejection0Ne rejetez RIEN AT ALL
tessedit_rejection_debug0Débogage de l'adaptation
tessedit_flip_0O1Renversement contextuel 0O O0
rej_trust_doc_dawg0Utiliser DOC dawg dans le détecteur de conf. 11l
rej_1Il_use_dict_word0Utiliser le test de dictée
rej_1Il_trust_permuter_type1Ne pas vérifier deux fois
rej_use_tess_accepted1Contrôle individuel des rejets
rej_use_tess_blanks1Contrôle individuel des rejets
rej_use_good_perm1Contrôle individuel des rejets
rej_use_sensible_wd0Extension du contrôle des permutations
rej_alphas_in_number_perm0Extension du contrôle des permutations
tessedit_create_boxfile0Édition de texte avec des encadrés
tessedit_write_images0Capture de l'image à partir de l'IPE
mode_affichage_interactif0Exécuter de manière interactive ?
tessedit_override_permuter1Selon dict_word
tessedit_use_primary_params_model0En mode multilingue, utiliser le modèle params de la langue principale
textord_tabfind_show_vlines0Recherche de ligne de débogage
textord_use_cjk_fp_model0Utiliser le modèle CJK à pas fixe
poly_allow_detailed_fx0Permettre aux extracteurs de caractéristiques de voir le contour original
tessedit_init_config_only0Initialiser uniquement avec le fichier de configuration. Utile si l'instance n'est pas utilisée pour l'OCR mais uniquement pour l'analyse de la mise en page.
textord_equation_detect0Activer le détecteur d'équations
textord_tabfind_vertical_text1Activer la détection verticale
textord_tabfind_force_vertical_text0Forcer l'utilisation du mode de page de texte vertical
préserver_les_espaces_inter-mots0Préserver les espaces inter-mots multiples
pageseg_apply_music_mask1Détecter la portée musicale et supprimer les éléments qui se croisent
mode textord_single_height0Le script n'a pas de hauteur x, il faut donc utiliser un mode unique
tosp_old_to_method0Les statistiques de l'espace utilisent le hachage préalable ?
tosp_old_to_constrain_sp_kn0Limiter les valeurs relatives des écarts entre les mots et à l'intérieur des mots pour old_to_method.
tosp_only_use_prop_rows1Les stats de blocs pour utiliser des rangs à pas fixe ?
tosp_force_wordbreak_on_punct0Forcer les sauts de mots sur les ponctuels pour couper les longues lignes dans les langues non délimitées par des espaces
tosp_use_pre_chopping0Les statistiques de l'espace utilisent le hachage préalable ?
tosp_old_to_bug_fix0Correction d'un bogue suspecté dans un ancien code
tosp_block_use_cert_spaces1Uniquement les espaces OBVIOUS
tosp_row_use_cert_spaces1Uniquement les espaces OBVIOUS
tosp_narrow_blobs_not_cert1Uniquement les espaces OBVIOUS
tosp_row_use_cert_spaces11Uniquement les espaces OBVIOUS
tosp_recovery_isolated_row_stats1Utiliser la rangée seule lorsque les espaces de certitude sont insuffisants
tosp_only_small_gaps_for_kern0Meilleure estimation
tosp_all_flips_fuzzy0Passez TOUT au contexte ?
tosp_fuzzy_limit_all1Ne pas restreindre la limite floue kn->sp aux tableaux
tosp_stats_use_xht_gaps1Utilisation à l'intérieur de l'espace xht pour les ruptures wd
tosp_use_xht_gaps1Utilisation à l'intérieur de l'espace xht pour les ruptures wd
tosp_only_use_xht_gaps0A n'utiliser qu'à l'intérieur de l'espace xht pour les ruptures de wd
tosp_rule_9_test_punct0Ne pas changer de place à côté d'une ponctuation
tosp_flip_fuzz_kn_to_sp1Retournement par défaut
tosp_flip_fuzz_sp_to_kn1Retournement par défaut
tosp_improve_thresh0Permettre une heuristique d'amélioration
textord_no_rejects0Ne pas supprimer les blobs de bruit
textord_show_blobs0Afficher les blobs non triés
textord_show_boxes0Afficher les blobs non triés
mots_bruits1Rejeter les mots bruyants
textord_noise_rejrows1Rejeter les lignes bruyantes
textord_noise_debug0Déboguer le détecteur de déchets des rangées
classify_learn_debug_strLa classe str pour déboguer l'apprentissage
fichier_mots_utilisateurUn nom de fichier contenant des mots fournis par l'utilisateur.
mots_utilisateur_suffixeUn suffixe de mots fournis par l'utilisateur et situés dans tessdata.
fichier_modèles_utilisateurUn nom de fichier de motifs fournis par l'utilisateur.
motifs_utilisateur_suffixeUn suffixe de motifs fournis par l'utilisateur et situés dans tessdata.
fichier_de_mots_ambigus_de_sortieFichier de sortie pour les ambiguïtés trouvées dans le dictionnaire
mot_à_déboguerMot pour lequel les informations de débogage du stoppeur doivent être imprimées sur stdout
tessedit_char_blacklistListe noire des caractères à ne pas reconnaître
tessedit_char_whitelistListe blanche de caractères à reconnaître
tessedit_char_unblacklistListe de caractères à ignorer tessedit_char_blacklist
tessedit_write_params_to_fileÉcrit tous les paramètres dans le fichier donné.
applybox_exposure_pattern.expLa valeur d'exposition suit ce modèle dans le nom du fichier image. Les noms des fichiers d'image doivent être de la forme [lang].[fontname].exp [num].tif
chs_leading_punct ('`"Ponctuation en tête
chs_trailing_punct1).,;: ?!1er Ponctuation de fin
chs_trailing_punct2 )'`"2ème ponctuation de fin
contours_odd%Nombre de contours non standard
outlines_2 ij!?%": ;Nombre de contours non standard
ponctuation_numérique.,Ponct. chs attendus DANS les nombres
unrecognised_charCaractère de sortie pour les blobs non identifiés
ok_repeated_ch_non_alphanum_wds-?*=Permettre au NN de se détacher
conflict_set_I_l_1Il1 []Il1 conflict set
type de fichier.tifExtension du nom de fichier
tessedit_load_sublangsListe des langues à charger avec celle-ci
page_separatorSéparateur de pages (par défaut, le caractère de contrôle du saut de page)
classifier_char_norm_range0.2Plage de normalisation des caractères ...
ratio_de_classification_max1.5Rapport de veto entre les notations des classificateurs
marge_de_certitude_max5.5Veto différence entre les certitudes des classificateurs
seuil_matcher_good0.125Bon match (0-1)
résultat_adaptatif_fiable_matcher0Grand Match (0-1)
seuil_parfait_du_matelier0.02Correspondance parfaite (0-1)
matcher_bad_match_pad0.15Mauvais match pad (0-1)
marge_rating_matcher0.1Marge du nouveau modèle (0-1)
taille_du_bruit_de_la_matrice12Longueur moyenne du bruit
matcher_clustering_max_angle_delta0.015Delta d'angle maximal pour le regroupement de prototypes
classer_misfit_junk_penalty0Pénalité à appliquer lorsqu'un numéro autre qu'un numéro d'ordre se trouve verticalement en dehors de la position prévue de la ligne de texte
échelle de notation1.5Facteur d'échelle du classement
échelle de certitude20Facteur d'échelle de certitude
tessedit_class_miss_scale0.00390625Facteur d'échelle pour les caractéristiques non utilisées
facteur_d'élagage_adapté_à_la_classification2.5Élaguer les résultats mal adaptés qui sont beaucoup plus mauvais que le meilleur résultat
seuil_d'élagage_adapté_à_la_classification-1Threshold at which facteur_d'élagage_adapté_à_la_classification starts
classer les fragments de caractères garbage_certainty_threshold-3Exclure de la formation et de l'adaptation les fragments qui ne ressemblent pas à des personnages entiers
speckle_large_max_size0.3Taille maximale du chatoiement
pénalité_de_rating_de_speckle10Pénalité s'ajoutant à l'évaluation la plus défavorable en matière de bruit
xheight_penalty_subscripts0.125Pénalité (0,1 = 10 %) ajoutée si le mot contient des indices ou des exposants, mais qu'il est correct par ailleurs.
xheight_penalty_inconsistent0.25Pénalité de score (0,1 = 10%) ajoutée si une hauteur x est incohérente.
segment_penalty_dict_frequent_word1Multiplicateur de score pour les correspondances de mots qui ont une bonne casse et qui sont fréquents dans la langue donnée (plus le score est faible, mieux c'est).
segment_penalty_dict_case_ok1.1Multiplicateur de score pour les mots correspondant à une bonne casse (plus il est faible, mieux c'est).
segment_penalty_dict_case_bad1.3125Multiplicateur de score par défaut pour les correspondances de mots, ce qui peut poser des problèmes de casse (plus il est faible, mieux c'est).
segment_penalty_dict_nonword1.25Multiplicateur de score pour les segmentations de fragments de glyphes qui ne correspondent pas à un mot du dictionnaire (plus il est faible, mieux c'est).
segment_penalty_garbage1.5Multiplicateur de score pour les chaînes mal casées qui ne figurent pas dans le dictionnaire et qui ressemblent généralement à des déchets (plus il est faible, mieux c'est).
échelle de certitude20Facteur d'échelle de certitude
stopper_nondict_certainty_base-2.5Seuil de certitude pour les mots non-dictés
stopper_phase2_certainty_rejection_offset1Rejeter la compensation de certitude
stopper_certainty_per_char-0.5Certitude d'ajouter pour chaque caractère de dictée au-delà de la petite taille du mot.
stopper_la_mauvaiseté_des_caractères_autorisables3Variation de certitude maximale autorisée dans un mot (en sigma)
doc_dict_pending_threshold0Pire certitude pour l'utilisation du dictionnaire en attente
doc_dict_certainty_threshold-2.25Pire certitude pour les mots qui peuvent être insérés dans le dictionnaire du document
seuil d'incertitude-2.25Bonne limite d'utilisation des blobs
chop_split_dist_knob0.5Réglage de la longueur de la fente
chop_overlap_knob0.9Ajustement du chevauchement fractionné
chop_center_knob0.15Ajustement du centre de la fente
bouton d'affûtage0.06Réglage de la netteté de l'image
bouton de modification de la largeur du chop5Réglage de la largeur
chop_ok_split100Limite de fractionnement OK
chop_good_split50Bonne limite de fractionnement
segsearch_max_char_wh_ratio2Rapport maximal entre la largeur et la hauteur des caractères