Einstellen von Tesseract-Konfigurationsvariablen in C#
Die IronOcr Tesseract-Schnittstelle ermöglicht die vollständige Kontrolle der Tesseract-Konfigurationsvariablen durch die
IronOcr.TesseractConfiguration-Klasse
Beispiel für Tesseract-Konfigurationscode
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;
using (var Input = new OcrInput(@"images\image.png"))
{
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.English
Ocr.Configuration.ReadBarCodes = False
Ocr.Configuration.BlackListCharacters = "`ë ^"
Ocr.Configuration.RenderSearchablePdf = True
Ocr.Configuration.RenderHocr = True
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
Ocr.Configuration.TesseractVariables ("tessedit_parallelize") = False
Using Input = New OcrInput("images\image.png")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Liste aller Tesseract-Konfigurationsvariablen
Diese können mit IronTesseract.Configuration.TesseractVariables' gesetzt werden["Schlüssel"] = Wert;
Tesseract-Konfigurationsvariable | Standard | Bedeutung |
---|---|---|
classify_num_cp_levels | Anzahl der Stufen des Klassenschneiders | |
textord_debug_tabfind | Suche auf der Registerkarte Debug | |
textord_debug_bugs | Ausgabe von Fehlern bei der Registersuche einschalten | |
textord_testregion_links | -1 | Linker Rand des Rechtecks für Debugmeldungen |
textord_testregion_top | -1 | Oberer Rand des Rechtecks für die Fehlerberichterstattung |
textord_testregion_rechts | 147483647 | Rechter Rand des Debug-Rechtecks |
textord_testregion_unten | 147483647 | Unterer Rand des Debug-Rechtecks |
textord_tabfind_show_partitions | Partitionsgrenzen anzeigen, warten, wenn > | |
devanagari_split_debuglevel | Debug-Ebene für den geteilten Shiro-Rekha-Prozess. | |
edges_max_children_per_outline | Maximale Anzahl von Kindern innerhalb einer Zeichenkontur | |
edges_max_children_layers | Maximale Anzahl verschachtelter Kinder innerhalb einer Zeichenkontur | |
edges_children_per_grandchild | Wichtigkeitsverhältnis für Spannkonturen | |
edges_children_count_limit | Maximal zulässige Löcher im Blob | |
kanten_min_nicht-loch | Mindestpixel für potenzielle Zeichen in der Box | |
kanten_patharea_ratio | Max. Linsenquadrat/Fläche für akzeptable Kinderumrisse | |
textord_fp_chop_error | Maximal zulässige Biegung der Häckselzellen | |
textord_tabfind_show_images | Bildkleckse anzeigen | |
textord_skewsmooth_offset | Für glatten Faktor | |
textord_skewsmooth_offset2 | Für glatten Faktor | |
textord_test_x | -2147483647 | koordinate des Testpunkts |
textord_test_y | -2147483647 | koordinate des Testpunkts |
textord_min_blobs_in_row | Min. Blobs vor Gradient gezählt | |
textord_spline_minblobs | Min. Blobs in jedem Spline-Segment | |
textord_spline_medianwin | Größe des Fensters für die Spline-Segmentierung | |
textord_max_blob_overlaps | Maximale Anzahl von Blobs, die ein großer Blob überlappen kann | |
textord_min_xheight | Min. glaubwürdiges Pixel xheight | |
textord_lms_line_trials | Anzahl der zu erledigenden Linienanpassungen | |
oldbl_holed_losscount | Maximaler Verlust vor Verwendung der Ausweichleitung | |
pitsync_linear_version | Neuen schnellen Algorithmus verwenden | |
pitsync_fake_depth | Maximale Vorab-Erzeugung von Fälschungen | |
textord_tabfind_show_strokewidths | Strichstärken anzeigen | |
textord_dotmatrix_gap | Maximaler Pixelabstand bei gebrochenem Raster | |
textord_debug_block | Block zum Debuggen von | |
textord_pitch_range | Test der maximalen Reichweite auf dem Spielfeld | |
textord_words_veto_power | Erforderliche Zeilen, um ein Veto zu überstimmen | |
gleichungerkennen_speichern_bi_bild | Speichern des eingegebenen Bi-Bildes | |
equationdetect_save_spt_image | Sonderzeichenbild speichern | |
equationdetect_save_seed_image | Speichern Sie das Startbild | |
equationdetect_save_merged_image | Speichern Sie das zusammengefügte Bild | |
poly_debug | Altes Poly debuggen | |
poly_wide_objects_better | Genauere Annäherung an weite Dinge | |
wordrec_display_splits | Splits anzeigen | |
textord_debug_printable | Debug-Fenster druckbar machen | |
textord_space_size_is_variable | Bei "true" wird angenommen, dass die Worttrennzeichen eine variable Breite haben, auch wenn die Zeichen einen festen Abstand haben. | |
textord_tabfind_show_initial_partitions | Partitionsgrenzen anzeigen | |
textord_tabfind_show_reject_blobs | Als Lärm zurückgewiesene Blobs anzeigen | |
textord_tabfind_show_columns | Spaltenbegrenzungen anzeigen | |
textord_tabfind_show_blocks | Endgültige Blockgrenzen anzeigen | |
textord_tabfind_find_tables | erkennung von Lauftabellen | |
devanagari_split_debugimage | Ob ein Debug-Image für den geteilten shiro-rekha-Prozess erstellt werden soll. | |
textord_show_fixed_cuts | Zeichnen von Zellengrenzen mit festem Abstand | |
kanten_benutzen_neue_aussenlinie_komplexität | Verwenden Sie das neue Modul für die Gliederungskomplexität | |
kanten_debug | die Fehlersuche für dieses Modul einschalten | |
kanten_Kinder_fix | Boxige Eltern von charähnlichen Kindern entfernen | |
gapmap_debug | Sagen, welche Blöcke Tabellen haben | |
gapmap_use_ends | Großes Leerzeichen am Anfang und Ende der Zeilen verwenden | |
gapmap_kein_isoliertes_Quantum | Sicherstellen, dass die Lücken nicht weniger als 2 Quanten breit sind | |
textord_heavy_nr | Lärm energisch entfernen | |
textord_show_initial_rows | Zeilenakkumulation anzeigen | |
textord_show_parallel_rows | Seitenbezogene Zeilen anzeigen | |
textord_show_expanded_rows | Zeilen nach dem Expandieren anzeigen | |
textord_show_final_rows | Zeilen nach der endgültigen Anpassung anzeigen | |
textord_show_final_blobs | Blob-Grenzen nach Pre-Ass anzeigen | |
textord_test_landscape | Tests beziehen sich auf Land/Hafen | |
textord_parallel_baselines | Parallele Grundlinien erzwingen | |
textord_gerade_baselines | Gerade Grundlinien erzwingen | |
textord_alt_baselines | Alten Basisalgorithmus verwenden | |
textord_old_xheight | Alten xheight-Algorithmus verwenden | |
textord_fix_xheight_bug | Spline-Basislinie verwenden | |
textord_fix_makerow_bug | Verhindern mehrerer Baselines | |
textord_debug_xheights | Test der xheight-Algorithmen | |
textord_biased_skewcalc | Schätzungen der Verzerrung mit der Linienlänge | |
textord_interpolating_skew | Interpolieren über Lücken hinweg | |
textord_new_initial_xheight | Testmechanismus xheight verwenden | |
textord_debug_blob | Testblob-Informationen drucken | |
textord_really_old_xheight | Ursprüngliches Wiseowl xheight verwenden | |
textord_oldbl_debug | Debuggen der alten Baseline-Generierung | |
textord_debug_baselines | Erzeugung einer Debug-Basislinie | |
textord_oldbl_paradef | Para-Standard-Mechanismus verwenden | |
textord_oldbl_split_splines | Geteilte Stufenverzahnung | |
textord_oldbl_merge_parts | Verdächtige Partitionen zusammenführen | |
oldbl_corrfix | Verbesserung der Korrelation von Höhen | |
oldbl_xhfix | Fehler in den Modi Schwellenwert für xHöhen beheben | |
textord_ocropus_mode | Basislinien für Ocropus erstellen | |
textord_tabfind_only_strokewidths | Nur Strichstärken ausführen | |
textord_tabfind_show_initialtabs | Registerkarte Kandidaten anzeigen | |
textord_tabfind_show_finaltabs | Registerkarte Vektoren anzeigen | |
textord_show_tables | Tabellenregionen anzeigen | |
textord_tablefind_show_mark | Debugging-Tabelle Markierungsschritte im Detail | |
textord_tablefind_show_stats | Seitenstatistiken für die Tabellensuche anzeigen | |
textord_tablefind_recognize_tables | Aktiviert den Tabellenerkenner für das Tabellenlayout und die Filterung. | |
textord_all_prop | Alle Dokumente sind proportionaler Text | |
textord_debug_pitch_test | Fehlersuche beim Test mit festem Abstand | |
textord_disable_pitch_test | Ausschalten des dp-Algorithmus für feste Tonhöhen | |
textord_fast_pitch_test | Noch schnellerer Pitch-Algorithmus | |
textord_debug_pitch_metric | Vollständig metrisches Material schreiben | |
textord_show_row_cuts | Schnitte auf Zeilenebene zeichnen | |
textord_show_page_cuts | Schnitte auf Seitenebene zeichnen | |
textord_pitch_cheat | Richtige Antwort für fest/prop verwenden | |
textord_blockndoc_fixed | Ganzes Dokument/Block mit festem Abstand anstreben | |
textord_show_initial_words | Separate Wörter anzeigen | |
textord_show_new_words | Separate Wörter anzeigen | |
textord_show_fixed_words | Anzeige erzwungener Wörter mit fester Tonhöhe | |
textord_blocksall_fixed | Stöhnen über Stützenblöcke | |
textord_blocksall_prop | Stöhnen über feste Tonhöhenblöcke | |
textord_blocksall_testing | Statistiken beim Jammern wegwerfen | |
textord_test_mode | Stromtest durchführen | |
textord_pitch_scalebigwords | Skalenwerte für große Wörter | |
textord_restore_underlines | Unterstreichungen abschneiden und wieder einsetzen | |
textord_fp_chopping | Häckseln mit festem Abstand | |
textord_force_make_prop_words | Proportionale Wortsegmentierung für alle Zeilen erzwingen | |
textord_chopper_test | Der Chopper wird getestet. | |
wordrec_display_all_blobs | Blobs anzeigen | |
wordrec_blob_pause | Blob-Pause | |
stream_filelist | Streamen einer Dateiliste von stdin | |
debug_file | Datei zum Senden der tprintf-Ausgabe an | |
klassifizieren_schrift_name | UnknownFont | Standard-Schriftartname, der in der Ausbildung verwendet wird |
dokument_titel | Titel des Ausgabedokuments (wird für die hOCR- und PDF-Ausgabe verwendet) | |
dotproduct | auto | Funktion für die Berechnung des Punktprodukts |
classify_cp_angle_pad_loose | Klasse Pruner Angle Pad Lose | |
classify_cp_angle_pad_medium | Class Pruner Angle Pad Medium | |
classify_cp_angle_pad_tight | CLass Pruner Angle Pad Tight | |
classify_cp_end_pad_loose | .5 | Klasse Pruner End Pad Lose |
klassifizieren_cp_end_pad_medium | .5 | Klasse Pruner End Pad Medium |
klassifizieren_cp_end_pad_tight | .5 | Klasse Pruner End Pad Tight |
classify_cp_side_pad_loose | .5 | Klasse Pruner Seitenpolster lose |
classify_cp_side_pad_medium | .2 | Klasse Pruner Side Pad Medium |
klassifizieren_cp_seite_pad_dicht | .6 | Klasse Pruner Seite Pad Dicht |
classify_pp_angle_pad | Proto Pruner Angle Pad | |
klassifizieren_pp_end_pad | .5 | Proto Prune End Pad |
klassifizieren_pp_side_pad | .5 | Proto Pruner Seitenpad |
klassifizieren_min_neigung | .414214 | Steigung, unter der Linien als horizontal bezeichnet werden |
klassifizieren_max_neigung | .41421 | Steigung, ab der Linien als senkrecht bezeichnet werden |
classify_norm_adj_midpoint | Norm anpassen Mittelpunkt ... | |
klassifizieren_norm_adj_curl | Norm einstellen locken ... | |
classify_pico_feature_length | .05 | Pico Feature Länge |
textord_underline_threshold | .5 | Anteil der belegten Breite |
kanten_Kinderbereich | .5 | Minimaler Flächenanteil des Kinderumrisses |
kanten_boxarea | .875 | Minimaler Flächenanteil des Enkels für die Box |
textord_fp_chop_snap | .5 | Maximaler Abstand des Kotelettpunkts vom Scheitelpunkt |
gapmap_big_gaps | .75 | xht-Multiplikator |
textord_spline_shift_fraction | .02 | Bruchteil des Zeilenabstands für Quad |
textord_spline_ausreißer_fraktion | .1 | Bruchteil des Zeilenabstands für Ausreißer |
textord_skew_ile | .5 | Ile von Gradienten für Seitenschräglage |
textord_skew_lag | .02 | Verzögerung für Schräglage bei Zeilenakkumulation |
textord_linespace_iqrlimit | .2 | Max. iqr/Median für Linespace |
textord_width_limit | Maximale Breite der Blobs zur Bildung von Reihen | |
textord_chop_width | .5 | Maximale Breite vor dem Schneiden |
textord_expansion_factor | Faktor für die Erweiterung der Zeilen in expand_rows | |
textord_overlap_x | .375 | Anteil des Zeilenabstands für eine gute Überlappung |
textord_minxh | .25 | bruchteil der Zeilengröße für minimale x-Höhe |
textord_min_linesize | .25 | * blobhöhe für anfängliche Zeilengröße |
textord_excess_blobsize | .3 | Neue Zeile erstellt, wenn Blob Zeile so groß macht |
textord_belegung_schwellenwert | .4 | Bruchteil der Nachbarschaft |
textord_underline_width | Vielfaches von line_size für Unterstreichung | |
textord_min_blob_height_fraction | .75 | Minimale Höhe/Oberkante des Blob, um die Oberkante des Blob in die xheight-Statistik einzubeziehen |
textord_xheight_mode_fraction | .4 | Minimale Stapelhöhe, um xHöhe zu erreichen |
textord_ascheight_mode_fraction | .08 | Minimale Stapelhöhe für die Herstellung einer Höhe |
textord_descheight_mode_fraction | .08 | Mindesthöhe des Stapels für die Herstellung der Fallhöhe |
textord_ascx_ratio_min | .25 | Min. Kappe/xHöhe |
textord_ascx_ratio_max | .8 | Maximale Kappe/xHöhe |
textord_descx_ratio_min | .25 | Min desc/xheight |
textord_descx_ratio_max | .6 | Maximaler Abstieg/xHöhe |
textord_xheight_error_margin | .1 | Akzeptierte Variation |
oldbl_xhfract | .4 | Erlaubter Anteil von est in calc |
oldbl_dot_error_size | .26 | Maximales Seitenverhältnis eines Punktes |
textord_oldbl_jumplimit | .15 | X-Fraktion für neue Partition |
pitsync_joined_edge | .75 | Dist innen großer Klecks zum Hacken |
pitsync_offset_freecut_fraction | .25 | Bruchteil des Schnittes bei freien Schnitten |
textord_tabvector_vertical_gap_fraction | .5 | maximal zulässiger Anteil der mittleren Blobbreite für vertikale Lücken im vertikalen Text |
textord_tabvector_vertical_box_ratio | .5 | Bruchteil der Streichhölzer, die erforderlich sind, um eine Linie für senkrecht zu erklären |
textord_projektion_skala | .2 | Abschneiderate für mittlere Schnitte |
textord_balance_factor | Ding-Rate für unausgewogene Char-Zellen | |
textord_wordstats_smooth_factor | .05 | Glättung von Lückenstatistiken |
textord_width_smooth_factor | .1 | Statistiken über die Glättungsbreite |
textord_words_width_ile | .4 | Ile von Blobbreiten für Raum est |
textord_words_maxspace | Vielfaches von xheight | |
textord_words_default_maxspace | .5 | Maximal glaubwürdiger dritter Raum |
textord_words_default_minspace | .6 | Bruchteil von xheight |
textord_words_min_minspace | .3 | Bruchteil von xheight |
textord_words_default_nonspace | .2 | Bruchteil von xheight |
textord_words_initial_lower | .25 | Maximale anfängliche Clustergröße |
textord_words_initial_upper | .15 | Minimaler anfänglicher Abstand zwischen den Clustern |
textord_words_minlarge | .75 | Anteil der benötigten gültigen Lücken |
textord_words_pitchsd_threshold | .04 | Schwellenwert für die Tonhöhensynchronisation |
textord_words_def_fixed | .016 | Schwellenwert für die endgültige Festlegung |
textord_words_def_prop | .09 | Schwellenwert für die endgültige Stütze |
textord_pitch_rowsimilarity | .08 | Bruchteil von xheight für Gleichheit |
wörter_einfach_unten | .5 | Maximale anfängliche Clustergröße |
wörter_anfänge_ober | .15 | Minimaler anfänglicher Abstand zwischen den Clustern |
words_default_prop_nonspace | .25 | Bruchteil von xheight |
words_default_fixed_space | .75 | Bruchteil von xheight |
words_default_fixed_limit | .6 | Zulässige Größenabweichung |
textord_words_definite_spread | .3 | Nicht-unscharfer Abstandsbereich |
textord_spacesize_ratiofp | .8 | Minimalverhältnis Raum/Nichtraum |
textord_spacesize_ratioprop | Minimalverhältnis Raum/Nichtraum | |
textord_fpiqr_ratio | .5 | Pitch IQR/Gap IQR Schwelle |
textord_max_pitch_iqr | .2 | Xh Bruchteil Lärm in Tonhöhe |
textord_fp_min_width | .5 | Minimale Breite der anständigen Kleckse |
textord_unterline_offset | .1 | Zu ignorierender Bruchteil von x |
ambigs_debug_level | Debug-Ebene für unichare Zweideutigkeiten | |
klassifizieren_debug_level | Klassifizierung der Debug-Ebene | |
klassifizieren_norm_methode | Normalisierungsmethode ... | |
matcher_debug_level | Matcher Debug Level | |
matcher_debug_flags | Matcher-Debug-Flags | |
classify_learning_debug_level | Debug Level lernen: | |
matcher_permanent_classes_min | Mindestanzahl der ständigen Klassen | |
matcher_min_examples_for_ prototyping | Zuverlässiger Schwellenwert für die Konfiguration | |
matcher_sufficient_examples_ for_prototyping | Ermöglicht die Anpassung, auch wenn die Mehrdeutigkeiten nicht gesehen wurden | |
classify_adapt_proto_threshold | 30 | Schwellenwert für gute Protos während der adaptiven 0-255 |
classify_adapt_feature_threshold | 30 | Schwellenwert für gute Merkmale während der adaptiven 0-255 |
classify_class_pruner_threshold | 29 | Klasse Pruner Schwellenwert 0-255 |
klassifizieren_klasse_pruner_multiplikator | 5 | Klasse Pruner Multiplikator 0-255: |
classify_cp_cutoff_strength | Klasse Pruner CutoffStrength: | |
klassifizieren_ganzzahliger_Vermittler_Multiplikator | Integer Matcher Multiplikator 0-255: | |
dawg_debug_level | Setzen Sie den Wert 1 für allgemeine Debug-Informationen, den Wert 2 für mehr Details und den Wert 3, um alle Debug-Meldungen zu sehen | |
hyphen_debug_level | Debug-Level für Wörter mit Bindestrichen. | |
stopper_kleinwort_grösse | Größe des Diktatwortes, das als Nicht-Diktatwort behandelt werden soll | |
stopper_debug_level | Debuglevel des Stoppers | |
tessedit_truncate_wordchoice_log | Maximal zu behaltende Wörter in der Liste | |
max_permuter_attempts | 0000 | Maximale Anzahl der verschiedenen Zeichen, die bei der Permutation berücksichtigt werden. Diese Grenze ist besonders nützlich, wenn Benutzermuster angegeben werden, da zu allgemeine Muster dazu führen können, dass Dawg Search eine zu große Anzahl von Optionen untersucht. |
repair_unchopped_blobs | Nicht zerhackte Kleckse korrigieren | |
chop_debug | Debuggen hacken | |
chop_split_length | 0000 | Geteilte Länge |
chop_same_distance | Gleiche Entfernung | |
chop_min_outline_points | Minimale Anzahl von Punkten auf der Gliederung | |
chop_seam_pile_size | 50 | Maximale Anzahl von Nähten in seam_pile |
chop_inside_angle | -50 | Min. Innenwinkel Biegung |
chop_min_outline_area | 000 | Min. Umrissfläche |
chop_centered_maxwidth | Breite der (kleineren) geschnittenen Kleckse, bei denen es egal ist, dass ein Stück nicht in der Mitte liegt. | |
chop_x_y_weight | X / Y Länge Gewicht | |
wordrec_debug_level | Debuglevel für wordrec | |
wordrec_max_join_chunks | Maximale Anzahl der zuzuordnenden Bruchstücke | |
segsearch_debug_level | SegSearch-Debug-Ebene | |
segsearch_max_pain_points | 000 | Maximale Anzahl der in der Warteschlange gespeicherten Schmerzpunkte |
segsearch_max_futile_classifications | Maximale Anzahl von Schmerzpunktklassifizierungen pro Chunk, die nicht zu einer besseren Wortwahl geführt haben. | |
sprache_modell_debug_level | Sprachmodell-Debuglevel | |
sprachen_modell_ngramm_ordnung | Maximale Ordnung des Zeichen-Ngramm-Modells | |
sprache_modell_viterbi_liste_ max_num_prunable | 0 | Maximale Anzahl von beschneidbaren (diejenigen, für die PrunablePath() ist wahr) entries in each viterbi list recorded in BLOB_CHOICEs |
sprache_modell_viterbi_liste_max_grösse | 00 | Maximale Größe der in BLOB_CHOICEs gespeicherten Viterbi-Listen |
sprache_modell_min_zusammengesetzte_länge | Mindestlänge von zusammengesetzten Wörtern | |
wordrec_display_segmentations | Segmentierungen anzeigen | |
tessedit_pageseg_mode | Seitentrennungsmodus: 0=nurosd, 1=auto+osd, 2=auto_only, 3=auto, 4=column, 5=block_vert, 6=block, 7=line, 8=word, 9=word_circle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (Werte aus PageSegMode enum in tesseract/publictypes.h) | |
tessedit_ocr_engine_mode | Welche OCR-Engine(s) ausgeführt werden soll(en) (Tesseract, LSTM, beide). Es wird standardmäßig die genaueste verfügbare Engine geladen und ausgeführt. | |
pageseg_devanagari_split_strategy | Ob bei der Seitensegmentierung das Top-Line-Splitting-Verfahren für Devanagari-Dokumente verwendet werden soll. | |
ocr_devanagari_split_strategy | Ob das Top-Line-Splitting-Verfahren für Devanagari-Dokumente bei der Ausführung von OCR verwendet werden soll. | |
bidi_debug | Debug-Ebene für BiDi | |
applybox_debug | Debug-Ebene | |
applybox_page | Seitenzahl für die Anwendung der Felder von | |
tessedit_bigram_debug | Umfang der Debug-Ausgabe für die Bigram-Korrektur. | |
debug_noise_removal | Neuzuweisung von kleinen Umrissen debuggen | |
noise_maxperblob | Maximal anzuwendende diakritische Zeichen für einen BLOB | |
noise_maxperword | 6 | Maximal zu verwendende diakritische Zeichen für ein Wort |
debug_x_ht_level | Neuberechnung der Fehlersuche | |
quality_min_initial_alphas_reqd | alphas auf ein gutes Wort | |
tessedit_tess_adaption_mode | 9 | Anpassungsentscheidungsalgorithmus für Tess |
multilang_debug_level | Multilang-Debug-Informationen ausgeben. | |
absatz_debug_level | Absatz-Debug-Informationen drucken. | |
tessedit_preserve_min_wd_len | Nur längerfristig bewahren | |
crunch_rating_max | Für zusätzliche Länge in der Bewertung pro Kanal | |
crunch_pot_indikatoren | Wie viele potenzielle Indikatoren werden benötigt? | |
crunch_leave_lc_strings | Wörter mit langen Kleinbuchstaben nicht unterdrücken | |
crunch_leave_uc_strings | Wörter mit langen Kleinbuchstaben nicht unterdrücken | |
crunch_long_repetitions | Knackige Wörter mit langen Wiederholungen | |
crunch_debug | Wie es heißt | |
fixsp_geraeuschfrei_limit | Wie viele lärmfreie Blbs auf jeder Seite? | |
fixsp_done_mode | Was für den Abstand getan wird | |
debug_fix_space_level | Debuggen des kontextabhängigen Fixbereichs | |
x_ht_akzeptanz_toleranz | Maximal zulässige Abweichung der Blob-Oberseite außerhalb der Schriftdaten | |
x_ht_min_change | Minimaländerung in xht vor dem eigentlichen Versuch | |
superscript_debug | Debuglevel für sub & superscript fixer | |
jpg_Qualität | JPEG-Qualitätsstufe einstellen | |
benutzer_definiert_dpi | DPI für das Eingabebild festlegen | |
min_characters_to_try | Legen Sie fest, welche Zeichen während des OSD mindestens versucht werden sollen | |
verdächtige_ebene | 9 | Verdächtiger Markerwert |
verdächtige_kurze_Wörter | Verdächtigen Sie dict wds nicht länger als dies | |
tessedit_reject_mode | Ablehnungsalgorithmus | |
tessedit_image_border | Rej blbs nahe der Bildrandgrenze | |
min_sane_x_ht_pixels | Jedes x-ht lt oder eq als dies ablehnen | |
tessedit_page_number | -1 | -1 -> Alle Seiten, sonst bestimmte zu verarbeitende Seite |
tessedit_parallelisieren | Parallelbetrieb, wo möglich | |
lstm_choice_mode | Ermöglicht die Einbeziehung alternativer Symbolwahlen in die hOCR-Ausgabe. Gültige Eingabewerte sind 0, 1 und 2. 0 ist der Standardwert. Bei 1 werden die alternativen Symbolwahlen pro Zeitschritt einbezogen. Bei 2 werden alternative Symbolwahlen aus dem CTC-Prozess anstelle des Gitters extrahiert. Die Auswahlmöglichkeiten werden pro Zeichen abgebildet. | |
lstm_choice_iterations | Setzt die Anzahl der kaskadierenden Iterationen für die Beamsearch im lstm_choice_mode. Beachten Sie, dass lstm_choice_mode auf einen Wert größer als 0 gesetzt werden muss, um Ergebnisse zu erzielen. | |
tosp_debug_level | Debug-Daten | |
tosp_ausreichend_Stichproben_für_den_Median | oder sollten wir mean verwenden | |
tosp_redo_kern_limit | Anzahl der Stichproben, die für eine Neuschätzung für eine Zeile erforderlich sind | |
tosp_wenige_Stichproben | Anzahl der Lücken mit 1 großen Lücke zur Behandlung als Tabelle | |
tosp_short_row | No.gaps reqd mit wenigen Zertifikatsplätzen zur Verwendung von Zertifikaten | |
tosp_sanity_method | Wie man Dummheit vermeidet | |
textord_max_noise_size | Pixelgröße des Rauschens | |
textord_baseline_debug | Grundlegende Fehlerbehebungsstufe | |
textord_noise_sizefraction | Bruchteil der Größe für Maxima | |
textord_noise_translimit | 6 | Übergänge für normale Kleckse |
textord_noise_sncount | super Norm Blobs zum Speichern von Zeilen | |
verwendung_von_Ambigs_zur_Anpassung | Verwenden Sie Ambigs, um zu entscheiden, ob Sie sich an ein Zeichen anpassen wollen | |
allow_blob_division | Teilbare Kleckse zum Hacken verwenden | |
priorisierung_Aufteilung | Vorrang der Blobteilung vor dem Hacken | |
klassifizieren_aktivieren_lernen | Adaptiven Klassifikator einschalten | |
tess_cn_matching | Normalisierter Abgleich von Zeichen | |
tess_bn_matching | Baseline Normalisiertes Matching | |
classify_enable_adaptive_matcher | Adaptiven Klassifikator einschalten | |
classify_use_pre_adapted_templates | Vorgefertigte Klassifikatorvorlagen verwenden | |
classify_save_adapted_templates | Angepasste Vorlagen in einer Datei speichern | |
classify_enable_adaptive_debugger | Match-Debugger einschalten | |
klassifizieren_nichtlinear_norm | Nichtlineare Hubdichtennormierung | |
zeichen_fragmente_deaktivieren | Zeichenfragmente nicht in die Ergebnisse des Klassifikators aufnehmen | |
classify_debug_character_fragments | Grafische Debugging-Fenster für das Training von Fragmenten einblenden | |
matcher_debug_separate_windows | Verwenden Sie zwei verschiedene Fenster zum Debuggen des Matchings: Eines für die Protos und eines für die Features. | |
klassifizieren_bln_numerisch_mode | Angenommen, die Eingabe besteht aus Zahlen [0-9]. | |
last_system_dawg | Laden Sie das System Wort Dawg. | |
last_freq_dawg | Häufiges Wort laden. | |
load_unambig_dawg | Laden Sie das eindeutige Wort Dawg. | |
load_punc_dawg | Laden Sie Dawg mit Interpunktionsmustern. | |
load_number_dawg | Lade Dawg mit Zahlenmustern. | |
last_bigram_dawg | Lade Dawg mit speziellen Wort-Bigrammen. | |
use_only_first_uft8_step | Verwendet nur den ersten UTF8-Schritt der angegebenen Zeichenkette bei der Berechnung der Protokollwahrscheinlichkeiten. | |
stopper_keine_akzeptablen_Auswahlen | AcceptableChoice() soll immer false zurückgeben. Nützlich, wenn die Notwendigkeit besteht, alle Segmentierungen zu untersuchen | |
segment_nonalphabetisch_script | Verwenden Sie keine alphabetisch spezifischen Tricks. In der Konfigurationsdatei von traineddata auf true setzen, wenn es sich um kursive Schriften oder Schriften mit festem Zeichenabstand handelt | |
dokumente_Wörter_speichern | Dokument Wörter speichern | |
fragmente_in_der_Matrix_zusammenführen | Zusammenführen der Fragmente in der Bewertungsmatrix und Löschen der Fragmente nach dem Zusammenführen | |
wordrec_enable_assoc | Assoziator Aktivieren | |
force_word_assoc | erzwingt die Ausführung des Assoziators unabhängig von der Einstellung enable_assoc. Dies wird für CJK verwendet, wo die Gruppierung von Komponenten erforderlich ist. | |
chop_enable | Häckseln aktivieren | |
chop_vertical_creep | Vertikales Kriechen | |
chop_new_seam_pile | Neue seam_pile verwenden | |
assume_fixed_pitch_char_segment | einbeziehung von Heuristiken mit fester Tonhöhe in die Zeichensegmentierung | |
wordrec_skip_no_truth_words | OCR nur für Wörter ausführen, deren Wahrheit in BlamerBundle aufgezeichnet wurde | |
wordrec_debug_blamer | Blamer-Debug-Meldungen drucken | |
wordrec_run_blamer | Versuchen Sie, die Schuld für Fehler zuzuweisen | |
auswahlen_alt_speichern | Speichern von alternativen Pfaden, die bei der Zerschneidungs- und Segmentierungssuche gefunden wurden | |
sprachen_modell_ngramm_ein | Aktivieren/deaktivieren Sie die Verwendung des Zeichen-Ngramm-Modells | |
sprachenmodell_ngramm_verwendung_ only_first_uft8_step | Verwendet nur den ersten UTF8-Schritt der angegebenen Zeichenkette bei der Berechnung der Protokollwahrscheinlichkeiten. | |
sprachen_modell_ngramm_raum_ delimited_language | Wörter werden durch Leerzeichen getrennt | |
sprachen_modell_verwendung_sigmoidale_gewissheit | Verwenden Sie die sigmoidale Punktzahl für die Gewissheit | |
tessedit_resegment_from_boxes | Segmentierung und Beschriftung aus der Box-Datei übernehmen | |
tessedit_resegment_aus_line_boxes | Konvertierung von Wort-/Zeilen-Box-Dateien in Zeichen-Box-Dateien | |
tessedit_train_from_boxes | Erzeugen von Trainingsdaten aus verschlüsselten Zeichen | |
tessedit_boxen_aus_boxen_herstellen | Mehr Boxen aus Box-Zeichen generieren | |
tessedit_train_line_recognizer | Eingabe in Zeilen umbrechen und Felder neu zuordnen, falls vorhanden | |
tessedit_dump_pageseg_images | Während der Seitensegmentierung erstellte Zwischenbilder ausgeben | |
tessedit_do_invert | Versuchen Sie, das Bild in `LSTMRecognizeWord` zu invertieren | |
tessedit_ambigs_training | Training für Mehrdeutigkeiten durchführen | |
tessedit_adaption_debug | Erzeugen und Drucken von Debug-Informationen für die Adaption | |
applybox_learn_chars_and_char_frags_mode | Lernen Sie sowohl Zeichenfragmente (wie im speziellen Modus für niedrige Belichtung) als auch nicht fragmentierte Zeichen. | |
applybox_learn_ngrams_mode | Es wird davon ausgegangen, dass jede Bounding Box Ngramme enthält. Lernen Sie nur die Ngramme, deren Umrisse sich horizontal überschneiden. | |
tessedit_display_outwords | Ausgabewörter zeichnen | |
tessedit_dump_choices | Dump-Char-Auswahlen | |
tessedit_timing_debug | Zeitstatistiken drucken | |
tessedit_fix_fuzzy_spaces | Versuchen Sie, unscharfe Räume zu verbessern | |
tessedit_unrej_any_wd | Bemühen Sie sich nicht um Wortplausibilität | |
tessedit_fix_hyphens | Doppelte Bindestriche knacken? | |
tessedit_enable_doc_dict | Wörter in das Dokumentwörterbuch aufnehmen | |
tessedit_debug_fonts | Ausgabe von Schriftinformationen pro Zeichen | |
tessedit_debug_block_rejection | Block- und Reihenstatistiken | |
tessedit_enable_bigram_correction | Aktivieren Sie die Korrektur auf der Grundlage des Bigram-Wörterbuchs. | |
tessedit_enable_dict_correction | Aktivieren Sie die Korrektur einzelner Wörter auf der Grundlage des Wörterbuchs. | |
geräusch_entfernen_aktivieren | Entfernen und bedingte Neuzuweisung von kleinen Umrissen, wenn sie die Layout-Analyse verwirren, Bestimmung von diakritischen Zeichen und Geräuschen | |
tessedit_minimal_rej_pass1 | Minimale Zurückweisung am Ausgang von Pass 1 | |
tessedit_test_adaption | Kriterien für die Testanpassung | |
test_pt | Test für Punkt | |
absatz_text_basiert | Absatzerkennung bei der Post-Text-Erkennung (genauer) | |
lstm_gebrauch_matrix | Verwendung von Bewertungen Matrix/Strahlensuche mit lstm | |
tessedit_gute_Qualität_unrej | Verringerung der Ablehnung von guten Dokumenten | |
tessedit_verwendet_zurückgewiesene_Spaces | Räume ablehnen? | |
tessedit_preserve_blk_rej_perfect_wds | Nur teilweise abgelehnte Wörter in der Blockrückweisung zurückweisen | |
tessedit_preserve_row_rej_perfect_wds | Nur teilweise abgelehnte Wörter in der Zeilenablehnung zurückweisen | |
tessedit_dont_blkrej_good_wds | Qualitätsmetrik für die Wortsegmentierung verwenden | |
tessedit_dont_rowrej_good_wds | Qualitätsmetrik für die Wortsegmentierung verwenden | |
tessedit_row_rej_good_docs | Ablehnung von Zeilen auf gute Dokumente anwenden | |
tessedit_reject_bad_qual_wds | Ablehnen aller qualitativ schlechten Wds | |
tessedit_debug_doc_rejection | Seitenstatistiken | |
tessedit_debug_quality_metrics | Daten in Debug-Datei ausgeben | |
bland_unrej | unkontrolliertes Potenzial | |
unlv_tilde_crunching | Mark v.bad words for tilde crunch | |
hocr_font_info | Schriftart-Infos zur hocr-Ausgabe hinzufügen | |
hocr_char_boxes | Hinzufügen von Koordinaten für jedes Zeichen zur hocr-Ausgabe | |
crunch_early_merge_tess_fails | Vor der Wortklauberei? | |
crunch_early_convert_bad_unlv_chs | ~^ früh herausnehmen? | |
crunch_terrible_garbage | Wie es heißt | |
crunch_leave_ok_strings | Sensible Saiten nicht anfassen | |
crunch_accept_ok | Akzeptanz in okstring verwenden | |
crunch_leave_accept_strings | Vernünftige Saiten nicht zerkleinern | |
crunch_include_numerals | Fiddle-Alpha-Zahlen | |
tessedit_prefer_joined_punct | Belohnung Interpunktion verbindet sich | |
tessedit_write_block_separators | Blocktrennzeichen in die Ausgabe schreiben | |
tessedit_write_rep_codes | Wiederholungszeichencode schreiben | |
tessedit_write_unlv | .unlv-Ausgabedatei schreiben | |
tessedit_create_txt | .txt-Ausgabedatei schreiben | |
tessedit_erstellen_hocr | .html hOCR-Ausgabedatei schreiben | |
tessedit_erstellen_alto | .xml ALTO-Datei schreiben | |
tessedit_create_lstmbox | Schreiben einer .box-Datei für das LSTM-Training | |
tessedit_create_tsv | .tsv-Ausgabedatei schreiben | |
tessedit_erstellen_Wortfeld | Schreiben einer Ausgabedatei im WordStr-Format .box | |
tessedit_erstellen_pdf | .pdf-Ausgabedatei schreiben | |
textonly_pdf | PDF mit nur einer unsichtbaren Textebene erstellen | |
verdächtiger_Einschränkung_1Il | UNLV behält 1Il Zeichen zurückgewiesen | |
tessedit_minimale_Ablehnung | Nur tess-Misserfolge zurückweisen | |
tessedit_zero_zurückweisung | Lehnen Sie nicht ALLES ab | |
tessedit_Wort_für_Wort | Die Ausgabe soll genau ein Wort pro WERD enthalten | |
tessedit_zero_kelvin_ablehnung | Lehnt nichts ab, auch nicht das Geringste | |
tessedit_zurückweisung_debug | Debuggen von Anpassungen | |
tessedit_flip_0O | Kontextuelle 0O O0-Flips | |
rej_trust_doc_dawg | DOC-Dawg in 11l konf. Detektor verwenden | |
rej_1Il_Verwendung_dict_word | Dictword-Test verwenden | |
rej_1Il_trust_permuter_type | Überprüfen Sie nicht doppelt | |
rej_use_tess_accepted | Individuelle Ablehnungskontrolle | |
rej_use_tess_blanks | Individuelle Ablehnungskontrolle | |
rej_benutzen_gut_perm | Individuelle Ablehnungskontrolle | |
rej_use_sensible_wd | Permuterkontrolle ausweiten | |
rej_alphas_in_zahl_perm | Permuterkontrolle ausweiten | |
tessedit_create_boxfile | Text mit Boxen ausgeben | |
tessedit_write_images | Erfassen Sie das Bild vom IPE | |
interaktiver_Anzeigemodus | Interaktiv ausführen? | |
tessedit_override_permuter | Nach dict_word | |
tessedit_verwendet_primäre_Parameter_Modell | Im mehrsprachigen Modus verwenden Sie das Modell params der Primärsprache | |
textord_tabfind_show_vlines | Debug-Zeilenfindung | |
textord_use_cjk_fp_model | CJK-Modell mit fester Tonhöhe verwenden | |
poly_allow_detailed_fx | Erlauben Sie den Merkmalsextraktoren, die ursprüngliche Kontur zu sehen | |
tessedit_init_config_only | Nur mit der Konfigurationsdatei initialisieren. Nützlich, wenn die Instanz nicht für OCR, sondern z. B. nur für die Layout-Analyse verwendet werden soll. | |
textord_equation_detect | Gleichungsdetektor einschalten | |
textord_tabfind_vertical_text | Vertikale Erkennung einschalten | |
textord_tabfind_force_vertical_text | Verwendung des vertikalen Textseitenmodus erzwingen | |
wortzwischenräume_erhalten | Mehrere Wortzwischenräume beibehalten | |
pageseg_apply_music_mask | Erkennen von Notensystemen und Entfernen von sich überschneidenden Komponenten | |
textord_single_height_mode | Das Skript hat keine x-Höhe, also verwenden Sie einen einzelnen Modus | |
tosp_old_to_method | Platzstatistiken mit Vorhacken? | |
tosp_old_to_constrain_sp_kn | Einschränkung der relativen Werte der Lücken zwischen und innerhalb von Wörtern für old_to_method. | |
tosp_only_use_prop_rows | Blockstatistiken zur Verwendung von Reihen mit festem Abstand? | |
tosp_force_wordbreak_on_punct | Wortumbrüche bei Punkt erzwingen, um lange Zeilen in nicht durch Leerzeichen getrennten Sprachen umzubrechen | |
tosp_nutzen_vor_hacken | Platzstatistiken mit Vorhacken? | |
tosp_old_to_bug_fix | Behebung eines vermuteten Fehlers im alten Code | |
tosp_block_use_cert_spaces | Nur stat OBVIOUS Räume | |
tosp_row_use_cert_spaces | Nur stat OBVIOUS Räume | |
tosp_narrow_blobs_not_cert | Nur stat OBVIOUS Räume | |
tosp_row_use_cert_spaces1 | Nur stat OBVIOUS Räume | |
tosp_recovery_isolated_row_stats | Bei unzureichendem Platzangebot nur Reihe verwenden | |
tosp_nur_kleine_lücken_für_kern | Besser raten | |
tosp_alle_flips_fuzzy | Pass ANY flip to context? | |
tosp_fuzzy_limit_all | Kn->sp fuzzy limit nicht auf Tabellen beschränken | |
tosp_stats_use_xht_gaps | Verwendung innerhalb der xht-Lücke für wd-Pausen | |
tosp_use_xht_gaps | Verwendung innerhalb der xht-Lücke für wd-Pausen | |
tosp_only_use_xht_gaps | Nur innerhalb der xht-Lücke für wd-Pausen verwenden | |
tosp_rule_9_test_punct | Nicht in den Raum neben dem Punkt einfügen | |
tosp_flip_fuzz_kn_to_sp | Standard-Flip | |
tosp_flip_fuzz_sp_to_kn | Standard-Flip | |
tosp_improve_thresh | Verbesserungsheuristik aktivieren | |
textord_no_rejects | Rauschflecken nicht entfernen | |
textord_show_blobs | Unsortierte Blobs anzeigen | |
textord_show_boxes | Unsortierte Blobs anzeigen | |
textord_noise_rejwords | Geräuschhafte Wörter ablehnen | |
textord_noise_rejrows | Geräuschhafte Zeilen ablehnen | |
textord_geräusch_debug | Debug row garbage detector | |
classify_learn_debug_str | Klasse str zu debuggen Lernen | |
user_words_file | Ein Dateiname mit vom Benutzer bereitgestellten Wörtern. | |
user_words_suffix | Ein Suffix von benutzerdefinierten Wörtern, die sich in tessdata befinden. | |
user_patterns_file | Ein Dateiname für vom Benutzer bereitgestellte Muster. | |
benutzer_muster_suffix | Ein Suffix der vom Benutzer bereitgestellten Muster, die sich in tessdata befinden. | |
output_ambig_words_file | Ausgabedatei für im Wörterbuch gefundene Mehrdeutigkeiten | |
word_to_debug | Wort, für das die Stopper-Debug-Informationen auf stdout ausgegeben werden sollen | |
tessedit_char_blacklist | Schwarze Liste der nicht zu erkennenden Zeichen | |
tessedit_char_whitelist | Whitelist der zu erkennenden Zeichen | |
tessedit_char_unblacklist | Liste der zu überschreibenden Zeichen tessedit_char_blacklist | |
tessedit_schreibe_params_zu_datei | Schreibt alle Parameter in die angegebene Datei. | |
applybox_exposure_pattern | .exp | Der Belichtungswert folgt diesem Muster im Dateinamen des Bildes. Die Namen der Bilddateien werden in der Form [lang].[Schriftname].exp [num].tif erwartet |
chs_leading_punct ('`" | Führende Interpunktion | |
chs_trailing_punct1 | ).,;:?! | . Nachgestelltes Satzzeichen |
chs_trailing_punct2 )'`" | . Satzzeichen am Ende | |
umrisse_ungewohnt | % | Nicht standardmäßige Anzahl von Umrissen |
umrisse_2 ij!?%":; | Nicht standardmäßige Anzahl von Umrissen | |
numerische_Zeichensetzung | ., | Punct. chs erwartet WITHIN Nummern |
unerkanntes_Zeichen | Ausgabezeichen für nicht identifizierte Blobs | |
ok_repeated_ch_non_alphanum_wds | -?*= | Erlauben Sie NN, zu rej |
konflikt_set_I_l_1 | Il1 [] | Il1-Konfliktsatz |
dateityp | .tif | Erweiterung des Dateinamens |
tessedit_load_sublangs | Liste der zu ladenden Sprachen mit dieser einen | |
seiten_trennzeichen | Seitentrennzeichen (Standard ist das Steuerzeichen für den Seitenvorschub) | |
klassifizieren_zeichen_norm_bereich | .2 | Zeichen Normierungsbereich ... |
klassifizieren_max_rating_ratio | .5 | Veto-Verhältnis zwischen Klassifikatorbewertungen |
classify_max_certainty_margin | .5 | Veto Differenz zwischen Klassifizierungssicherheiten |
matcher_good_threshold | .125 | Gutes Spiel (0-1) |
matcher_reliable_adaptive_result | Großes Spiel (0-1) | |
matcher_perfect_threshold | .02 | Perfektes Spiel (0-1) |
matcher_bad_match_pad | .15 | Schlechtes Spiel Pad (0-1) |
matcher_rating_margin | .1 | Neuer Vorlagenrand (0-1) |
matcher_avg_noise_size | 2 | Durchschnittliche Länge des Rauschflecks |
matcher_clustering_max_angle_delta | .015 | Maximales Winkeldelta für Prototyp-Clustering |
falsches_Schrottgeld_klassifizieren | Strafe, die anzuwenden ist, wenn eine Nicht-Alnum vertikal außerhalb der erwarteten Textzeilenposition liegt | |
rating_skala | .5 | Bewertungsskalierungsfaktor |
gewissheit_skala | 0 | Sicherheitsskalierungsfaktor |
tessedit_class_miss_scale | .00390625 | Skalierungsfaktor für nicht verwendete Merkmale |
klassifizieren_angepasste_Beschneidung_Faktor | .5 | Prune schlecht angepasste Ergebnisse so viel schlechter als das beste Ergebnis |
classify_adapted_pruning_threshold | -1 | Schwellenwert, bei dem classify_adapted_pruning_factor einsetzt |
zeichen_fragmente_klassifizieren garbage_certainty_threshold | -3 | Fragmente, die nicht wie ganze Zeichen aussehen, vom Training und der Anpassung ausschließen |
speckle_large_max_size | .3 | Max. große Fleckengröße |
speckle_rating_penalty | Strafzuschlag für die schlechteste Bewertung bei Lärm | |
xheight_penalty_subscripts | .125 | Punktabzug (0,1 = 10 %), wenn ein Wort tief- oder hochgestellte Buchstaben enthält, aber sonst in Ordnung. |
xheight_penalty_inconsistent | .25 | Punktabzug (0,1 = 10%), wenn eine x-Höhe nicht konsistent ist. |
segment_penalty_dict_frequent_word | Punktemultiplikator für Wortübereinstimmungen, die eine gute Groß-/Kleinschreibung aufweisen und in der gegebenen Sprache häufig vorkommen (niedriger ist besser). | |
segment_penalty_dict_case_ok | .1 | Punktemultiplikator für Wortübereinstimmungen, die eine gute Groß- und Kleinschreibung aufweisen (kleiner ist besser). |
segment_penalty_dict_case_bad | .3125 | Standardmultiplikator für Wortübereinstimmungen, der Probleme mit der Groß- und Kleinschreibung haben kann (niedriger ist besser). |
segment_penalty_dict_nonword | .25 | Punktemultiplikator für Glyphenfragment-Segmentierungen, die nicht mit einem Wörterbuchwort übereinstimmen (niedriger ist besser). |
segment_strafen_müll | .5 | Punktemultiplikator für schlecht geschriebene Zeichenketten, die nicht im Wörterbuch stehen und generell wie Müll aussehen (niedriger ist besser). |
gewissheit_skala | Sicherheitsskalierungsfaktor | |
stopper_nondict_certainty_base | -2.5 | Gewissheitsschwelle für Nicht-Diktat-Wörter |
stopper_phase2_gewissheit_zurueckweisung_offset | Ablehnung der Sicherheitsverschiebung | |
stopper_gewissheit_pro_char | -0.5 | Gewissheit, für jedes Diktatzeichen über kleine Wortgröße hinzuzufügen. |
stopper_allowable_character_badness | Maximal zulässige Sicherheitsabweichung in einem Wort (in Sigma) | |
doc_dict_pending_threshold | Schlechteste Sicherheit bei der Verwendung von anhängigen Wörterbüchern | |
doc_dict_certainty_threshold | -2.25 | Schlimmste Sicherheit für Wörter, die in das Dokumentwörterbuch eingefügt werden können |
tessedit_gewissheit_schwelle | -2.25 | Gute Blobgrenze |
chop_split_dist_knob | .5 | Einstellung der geteilten Länge |
chop_overlap_knob | .9 | Einstellung der geteilten Überlappung |
chop_center_knob | .15 | Einstellung der geteilten Mitte |
chop_sharpness_knob | .06 | Einstellung der geteilten Schärfe |
chop_width_change_knob | Einstellung der Breitenänderung | |
chop_ok_split | 00 | OK Splitgrenze |
chop_good_split | 0 | Gute Splitgrenze |
segsearch_max_char_wh_ratio | Maximales Verhältnis von Zeichenbreite zu -höhe |