Einstellen von Tesseract-Konfigurationsvariablen in C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

Die IronOcr Tesseract-Schnittstelle ermöglicht die vollständige Kontrolle der Tesseract-Konfigurationsvariablen durch die

IronOcr.TesseractConfiguration-Klasse

Beispiel für Tesseract-Konfigurationscode

using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
Imports IronOcr

Private Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.ReadBarCodes = False
Ocr.Configuration.BlackListCharacters = "`ë ^"
Ocr.Configuration.RenderSearchablePdf = True
Ocr.Configuration.RenderHocr = True
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
Ocr.Configuration.TesseractVariables ("tessedit_parallelize") = False

Using Input = New OcrInput("images\image.png")
 Dim Result = Ocr.Read(Input)
 Console.WriteLine(Result.Text)
End Using
VB   C#

Liste aller Tesseract-Konfigurationsvariablen

Diese können mit IronTesseract.Configuration.TesseractVariables' gesetzt werden["Schlüssel"] = Wert;

Tesseract-KonfigurationsvariableStandardBedeutung
classify_num_cp_levelsAnzahl der Stufen des Klassenschneiders
textord_debug_tabfindSuche auf der Registerkarte Debug
textord_debug_bugsAusgabe von Fehlern bei der Registersuche einschalten
textord_testregion_links-1Linker Rand des Rechtecks für Debugmeldungen
textord_testregion_top-1Oberer Rand des Rechtecks für die Fehlerberichterstattung
textord_testregion_rechts147483647Rechter Rand des Debug-Rechtecks
textord_testregion_unten147483647Unterer Rand des Debug-Rechtecks
textord_tabfind_show_partitionsPartitionsgrenzen anzeigen, warten, wenn >
devanagari_split_debuglevelDebug-Ebene für den geteilten Shiro-Rekha-Prozess.
edges_max_children_per_outlineMaximale Anzahl von Kindern innerhalb einer Zeichenkontur
edges_max_children_layersMaximale Anzahl verschachtelter Kinder innerhalb einer Zeichenkontur
edges_children_per_grandchildWichtigkeitsverhältnis für Spannkonturen
edges_children_count_limitMaximal zulässige Löcher im Blob
kanten_min_nicht-lochMindestpixel für potenzielle Zeichen in der Box
kanten_patharea_ratioMax. Linsenquadrat/Fläche für akzeptable Kinderumrisse
textord_fp_chop_errorMaximal zulässige Biegung der Häckselzellen
textord_tabfind_show_imagesBildkleckse anzeigen
textord_skewsmooth_offsetFür glatten Faktor
textord_skewsmooth_offset2Für glatten Faktor
textord_test_x-2147483647koordinate des Testpunkts
textord_test_y-2147483647koordinate des Testpunkts
textord_min_blobs_in_rowMin. Blobs vor Gradient gezählt
textord_spline_minblobsMin. Blobs in jedem Spline-Segment
textord_spline_medianwinGröße des Fensters für die Spline-Segmentierung
textord_max_blob_overlapsMaximale Anzahl von Blobs, die ein großer Blob überlappen kann
textord_min_xheightMin. glaubwürdiges Pixel xheight
textord_lms_line_trialsAnzahl der zu erledigenden Linienanpassungen
oldbl_holed_losscountMaximaler Verlust vor Verwendung der Ausweichleitung
pitsync_linear_versionNeuen schnellen Algorithmus verwenden
pitsync_fake_depthMaximale Vorab-Erzeugung von Fälschungen
textord_tabfind_show_strokewidthsStrichstärken anzeigen
textord_dotmatrix_gapMaximaler Pixelabstand bei gebrochenem Raster
textord_debug_blockBlock zum Debuggen von
textord_pitch_rangeTest der maximalen Reichweite auf dem Spielfeld
textord_words_veto_powerErforderliche Zeilen, um ein Veto zu überstimmen
gleichungerkennen_speichern_bi_bildSpeichern des eingegebenen Bi-Bildes
equationdetect_save_spt_imageSonderzeichenbild speichern
equationdetect_save_seed_imageSpeichern Sie das Startbild
equationdetect_save_merged_imageSpeichern Sie das zusammengefügte Bild
poly_debugAltes Poly debuggen
poly_wide_objects_betterGenauere Annäherung an weite Dinge
wordrec_display_splitsSplits anzeigen
textord_debug_printableDebug-Fenster druckbar machen
textord_space_size_is_variableBei "true" wird angenommen, dass die Worttrennzeichen eine variable Breite haben, auch wenn die Zeichen einen festen Abstand haben.
textord_tabfind_show_initial_partitionsPartitionsgrenzen anzeigen
textord_tabfind_show_reject_blobsAls Lärm zurückgewiesene Blobs anzeigen
textord_tabfind_show_columnsSpaltenbegrenzungen anzeigen
textord_tabfind_show_blocksEndgültige Blockgrenzen anzeigen
textord_tabfind_find_tableserkennung von Lauftabellen
devanagari_split_debugimageOb ein Debug-Image für den geteilten shiro-rekha-Prozess erstellt werden soll.
textord_show_fixed_cutsZeichnen von Zellengrenzen mit festem Abstand
kanten_benutzen_neue_aussenlinie_komplexitätVerwenden Sie das neue Modul für die Gliederungskomplexität
kanten_debugdie Fehlersuche für dieses Modul einschalten
kanten_Kinder_fixBoxige Eltern von charähnlichen Kindern entfernen
gapmap_debugSagen, welche Blöcke Tabellen haben
gapmap_use_endsGroßes Leerzeichen am Anfang und Ende der Zeilen verwenden
gapmap_kein_isoliertes_QuantumSicherstellen, dass die Lücken nicht weniger als 2 Quanten breit sind
textord_heavy_nrLärm energisch entfernen
textord_show_initial_rowsZeilenakkumulation anzeigen
textord_show_parallel_rowsSeitenbezogene Zeilen anzeigen
textord_show_expanded_rowsZeilen nach dem Expandieren anzeigen
textord_show_final_rowsZeilen nach der endgültigen Anpassung anzeigen
textord_show_final_blobsBlob-Grenzen nach Pre-Ass anzeigen
textord_test_landscapeTests beziehen sich auf Land/Hafen
textord_parallel_baselinesParallele Grundlinien erzwingen
textord_gerade_baselinesGerade Grundlinien erzwingen
textord_alt_baselinesAlten Basisalgorithmus verwenden
textord_old_xheightAlten xheight-Algorithmus verwenden
textord_fix_xheight_bugSpline-Basislinie verwenden
textord_fix_makerow_bugVerhindern mehrerer Baselines
textord_debug_xheightsTest der xheight-Algorithmen
textord_biased_skewcalcSchätzungen der Verzerrung mit der Linienlänge
textord_interpolating_skewInterpolieren über Lücken hinweg
textord_new_initial_xheightTestmechanismus xheight verwenden
textord_debug_blobTestblob-Informationen drucken
textord_really_old_xheightUrsprüngliches Wiseowl xheight verwenden
textord_oldbl_debugDebuggen der alten Baseline-Generierung
textord_debug_baselinesErzeugung einer Debug-Basislinie
textord_oldbl_paradefPara-Standard-Mechanismus verwenden
textord_oldbl_split_splinesGeteilte Stufenverzahnung
textord_oldbl_merge_partsVerdächtige Partitionen zusammenführen
oldbl_corrfixVerbesserung der Korrelation von Höhen
oldbl_xhfixFehler in den Modi Schwellenwert für xHöhen beheben
textord_ocropus_modeBasislinien für Ocropus erstellen
textord_tabfind_only_strokewidthsNur Strichstärken ausführen
textord_tabfind_show_initialtabsRegisterkarte Kandidaten anzeigen
textord_tabfind_show_finaltabsRegisterkarte Vektoren anzeigen
textord_show_tablesTabellenregionen anzeigen
textord_tablefind_show_markDebugging-Tabelle Markierungsschritte im Detail
textord_tablefind_show_statsSeitenstatistiken für die Tabellensuche anzeigen
textord_tablefind_recognize_tablesAktiviert den Tabellenerkenner für das Tabellenlayout und die Filterung.
textord_all_propAlle Dokumente sind proportionaler Text
textord_debug_pitch_testFehlersuche beim Test mit festem Abstand
textord_disable_pitch_testAusschalten des dp-Algorithmus für feste Tonhöhen
textord_fast_pitch_testNoch schnellerer Pitch-Algorithmus
textord_debug_pitch_metricVollständig metrisches Material schreiben
textord_show_row_cutsSchnitte auf Zeilenebene zeichnen
textord_show_page_cutsSchnitte auf Seitenebene zeichnen
textord_pitch_cheatRichtige Antwort für fest/prop verwenden
textord_blockndoc_fixedGanzes Dokument/Block mit festem Abstand anstreben
textord_show_initial_wordsSeparate Wörter anzeigen
textord_show_new_wordsSeparate Wörter anzeigen
textord_show_fixed_wordsAnzeige erzwungener Wörter mit fester Tonhöhe
textord_blocksall_fixedStöhnen über Stützenblöcke
textord_blocksall_propStöhnen über feste Tonhöhenblöcke
textord_blocksall_testingStatistiken beim Jammern wegwerfen
textord_test_modeStromtest durchführen
textord_pitch_scalebigwordsSkalenwerte für große Wörter
textord_restore_underlinesUnterstreichungen abschneiden und wieder einsetzen
textord_fp_choppingHäckseln mit festem Abstand
textord_force_make_prop_wordsProportionale Wortsegmentierung für alle Zeilen erzwingen
textord_chopper_testDer Chopper wird getestet.
wordrec_display_all_blobsBlobs anzeigen
wordrec_blob_pauseBlob-Pause
stream_filelistStreamen einer Dateiliste von stdin
debug_fileDatei zum Senden der tprintf-Ausgabe an
klassifizieren_schrift_nameUnknownFontStandard-Schriftartname, der in der Ausbildung verwendet wird
dokument_titelTitel des Ausgabedokuments (wird für die hOCR- und PDF-Ausgabe verwendet)
dotproductautoFunktion für die Berechnung des Punktprodukts
classify_cp_angle_pad_looseKlasse Pruner Angle Pad Lose
classify_cp_angle_pad_mediumClass Pruner Angle Pad Medium
classify_cp_angle_pad_tightCLass Pruner Angle Pad Tight
classify_cp_end_pad_loose.5Klasse Pruner End Pad Lose
klassifizieren_cp_end_pad_medium.5Klasse Pruner End Pad Medium
klassifizieren_cp_end_pad_tight.5Klasse Pruner End Pad Tight
classify_cp_side_pad_loose.5Klasse Pruner Seitenpolster lose
classify_cp_side_pad_medium.2Klasse Pruner Side Pad Medium
klassifizieren_cp_seite_pad_dicht.6Klasse Pruner Seite Pad Dicht
classify_pp_angle_padProto Pruner Angle Pad
klassifizieren_pp_end_pad.5Proto Prune End Pad
klassifizieren_pp_side_pad.5Proto Pruner Seitenpad
klassifizieren_min_neigung.414214Steigung, unter der Linien als horizontal bezeichnet werden
klassifizieren_max_neigung.41421Steigung, ab der Linien als senkrecht bezeichnet werden
classify_norm_adj_midpointNorm anpassen Mittelpunkt ...
klassifizieren_norm_adj_curlNorm einstellen locken ...
classify_pico_feature_length.05Pico Feature Länge
textord_underline_threshold.5Anteil der belegten Breite
kanten_Kinderbereich.5Minimaler Flächenanteil des Kinderumrisses
kanten_boxarea.875Minimaler Flächenanteil des Enkels für die Box
textord_fp_chop_snap.5Maximaler Abstand des Kotelettpunkts vom Scheitelpunkt
gapmap_big_gaps.75xht-Multiplikator
textord_spline_shift_fraction.02Bruchteil des Zeilenabstands für Quad
textord_spline_ausreißer_fraktion.1Bruchteil des Zeilenabstands für Ausreißer
textord_skew_ile.5Ile von Gradienten für Seitenschräglage
textord_skew_lag.02Verzögerung für Schräglage bei Zeilenakkumulation
textord_linespace_iqrlimit.2Max. iqr/Median für Linespace
textord_width_limitMaximale Breite der Blobs zur Bildung von Reihen
textord_chop_width.5Maximale Breite vor dem Schneiden
textord_expansion_factorFaktor für die Erweiterung der Zeilen in expand_rows
textord_overlap_x.375Anteil des Zeilenabstands für eine gute Überlappung
textord_minxh.25bruchteil der Zeilengröße für minimale x-Höhe
textord_min_linesize.25* blobhöhe für anfängliche Zeilengröße
textord_excess_blobsize.3Neue Zeile erstellt, wenn Blob Zeile so groß macht
textord_belegung_schwellenwert.4Bruchteil der Nachbarschaft
textord_underline_widthVielfaches von line_size für Unterstreichung
textord_min_blob_height_fraction.75Minimale Höhe/Oberkante des Blob, um die Oberkante des Blob in die xheight-Statistik einzubeziehen
textord_xheight_mode_fraction.4Minimale Stapelhöhe, um xHöhe zu erreichen
textord_ascheight_mode_fraction.08Minimale Stapelhöhe für die Herstellung einer Höhe
textord_descheight_mode_fraction.08Mindesthöhe des Stapels für die Herstellung der Fallhöhe
textord_ascx_ratio_min.25Min. Kappe/xHöhe
textord_ascx_ratio_max.8Maximale Kappe/xHöhe
textord_descx_ratio_min.25Min desc/xheight
textord_descx_ratio_max.6Maximaler Abstieg/xHöhe
textord_xheight_error_margin.1Akzeptierte Variation
oldbl_xhfract.4Erlaubter Anteil von est in calc
oldbl_dot_error_size.26Maximales Seitenverhältnis eines Punktes
textord_oldbl_jumplimit.15X-Fraktion für neue Partition
pitsync_joined_edge.75Dist innen großer Klecks zum Hacken
pitsync_offset_freecut_fraction.25Bruchteil des Schnittes bei freien Schnitten
textord_tabvector_vertical_gap_fraction.5maximal zulässiger Anteil der mittleren Blobbreite für vertikale Lücken im vertikalen Text
textord_tabvector_vertical_box_ratio.5Bruchteil der Streichhölzer, die erforderlich sind, um eine Linie für senkrecht zu erklären
textord_projektion_skala.2Abschneiderate für mittlere Schnitte
textord_balance_factorDing-Rate für unausgewogene Char-Zellen
textord_wordstats_smooth_factor.05Glättung von Lückenstatistiken
textord_width_smooth_factor.1Statistiken über die Glättungsbreite
textord_words_width_ile.4Ile von Blobbreiten für Raum est
textord_words_maxspaceVielfaches von xheight
textord_words_default_maxspace.5Maximal glaubwürdiger dritter Raum
textord_words_default_minspace.6Bruchteil von xheight
textord_words_min_minspace.3Bruchteil von xheight
textord_words_default_nonspace.2Bruchteil von xheight
textord_words_initial_lower.25Maximale anfängliche Clustergröße
textord_words_initial_upper.15Minimaler anfänglicher Abstand zwischen den Clustern
textord_words_minlarge.75Anteil der benötigten gültigen Lücken
textord_words_pitchsd_threshold.04Schwellenwert für die Tonhöhensynchronisation
textord_words_def_fixed.016Schwellenwert für die endgültige Festlegung
textord_words_def_prop.09Schwellenwert für die endgültige Stütze
textord_pitch_rowsimilarity.08Bruchteil von xheight für Gleichheit
wörter_einfach_unten.5Maximale anfängliche Clustergröße
wörter_anfänge_ober.15Minimaler anfänglicher Abstand zwischen den Clustern
words_default_prop_nonspace.25Bruchteil von xheight
words_default_fixed_space.75Bruchteil von xheight
words_default_fixed_limit.6Zulässige Größenabweichung
textord_words_definite_spread.3Nicht-unscharfer Abstandsbereich
textord_spacesize_ratiofp.8Minimalverhältnis Raum/Nichtraum
textord_spacesize_ratiopropMinimalverhältnis Raum/Nichtraum
textord_fpiqr_ratio.5Pitch IQR/Gap IQR Schwelle
textord_max_pitch_iqr.2Xh Bruchteil Lärm in Tonhöhe
textord_fp_min_width.5Minimale Breite der anständigen Kleckse
textord_unterline_offset.1Zu ignorierender Bruchteil von x
ambigs_debug_levelDebug-Ebene für unichare Zweideutigkeiten
klassifizieren_debug_levelKlassifizierung der Debug-Ebene
klassifizieren_norm_methodeNormalisierungsmethode ...
matcher_debug_levelMatcher Debug Level
matcher_debug_flagsMatcher-Debug-Flags
classify_learning_debug_levelDebug Level lernen:
matcher_permanent_classes_minMindestanzahl der ständigen Klassen
matcher_min_examples_for_ prototypingZuverlässiger Schwellenwert für die Konfiguration
matcher_sufficient_examples_ for_prototypingErmöglicht die Anpassung, auch wenn die Mehrdeutigkeiten nicht gesehen wurden
classify_adapt_proto_threshold30Schwellenwert für gute Protos während der adaptiven 0-255
classify_adapt_feature_threshold30Schwellenwert für gute Merkmale während der adaptiven 0-255
classify_class_pruner_threshold29Klasse Pruner Schwellenwert 0-255
klassifizieren_klasse_pruner_multiplikator5Klasse Pruner Multiplikator 0-255:
classify_cp_cutoff_strengthKlasse Pruner CutoffStrength:
klassifizieren_ganzzahliger_Vermittler_MultiplikatorInteger Matcher Multiplikator 0-255:
dawg_debug_levelSetzen Sie den Wert 1 für allgemeine Debug-Informationen, den Wert 2 für mehr Details und den Wert 3, um alle Debug-Meldungen zu sehen
hyphen_debug_levelDebug-Level für Wörter mit Bindestrichen.
stopper_kleinwort_grösseGröße des Diktatwortes, das als Nicht-Diktatwort behandelt werden soll
stopper_debug_levelDebuglevel des Stoppers
tessedit_truncate_wordchoice_logMaximal zu behaltende Wörter in der Liste
max_permuter_attempts0000Maximale Anzahl der verschiedenen Zeichen, die bei der Permutation berücksichtigt werden. Diese Grenze ist besonders nützlich, wenn Benutzermuster angegeben werden, da zu allgemeine Muster dazu führen können, dass Dawg Search eine zu große Anzahl von Optionen untersucht.
repair_unchopped_blobsNicht zerhackte Kleckse korrigieren
chop_debugDebuggen hacken
chop_split_length0000Geteilte Länge
chop_same_distanceGleiche Entfernung
chop_min_outline_pointsMinimale Anzahl von Punkten auf der Gliederung
chop_seam_pile_size50Maximale Anzahl von Nähten in seam_pile
chop_inside_angle-50Min. Innenwinkel Biegung
chop_min_outline_area000Min. Umrissfläche
chop_centered_maxwidthBreite der (kleineren) geschnittenen Kleckse, bei denen es egal ist, dass ein Stück nicht in der Mitte liegt.
chop_x_y_weightX / Y Länge Gewicht
wordrec_debug_levelDebuglevel für wordrec
wordrec_max_join_chunksMaximale Anzahl der zuzuordnenden Bruchstücke
segsearch_debug_levelSegSearch-Debug-Ebene
segsearch_max_pain_points000Maximale Anzahl der in der Warteschlange gespeicherten Schmerzpunkte
segsearch_max_futile_classificationsMaximale Anzahl von Schmerzpunktklassifizierungen pro Chunk, die nicht zu einer besseren Wortwahl geführt haben.
sprache_modell_debug_levelSprachmodell-Debuglevel
sprachen_modell_ngramm_ordnungMaximale Ordnung des Zeichen-Ngramm-Modells
sprache_modell_viterbi_liste_ max_num_prunable0Maximale Anzahl von beschneidbaren (diejenigen, für die PrunablePath() ist wahr) entries in each viterbi list recorded in BLOB_CHOICEs
sprache_modell_viterbi_liste_max_grösse00Maximale Größe der in BLOB_CHOICEs gespeicherten Viterbi-Listen
sprache_modell_min_zusammengesetzte_längeMindestlänge von zusammengesetzten Wörtern
wordrec_display_segmentationsSegmentierungen anzeigen
tessedit_pageseg_modeSeitentrennungsmodus: 0=nurosd, 1=auto+osd, 2=auto_only, 3=auto, 4=column, 5=block_vert, 6=block, 7=line, 8=word, 9=word_circle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (Werte aus PageSegMode enum in tesseract/publictypes.h)
tessedit_ocr_engine_modeWelche OCR-Engine(s) ausgeführt werden soll(en) (Tesseract, LSTM, beide). Es wird standardmäßig die genaueste verfügbare Engine geladen und ausgeführt.
pageseg_devanagari_split_strategyOb bei der Seitensegmentierung das Top-Line-Splitting-Verfahren für Devanagari-Dokumente verwendet werden soll.
ocr_devanagari_split_strategyOb das Top-Line-Splitting-Verfahren für Devanagari-Dokumente bei der Ausführung von OCR verwendet werden soll.
bidi_debugDebug-Ebene für BiDi
applybox_debugDebug-Ebene
applybox_pageSeitenzahl für die Anwendung der Felder von
tessedit_bigram_debugUmfang der Debug-Ausgabe für die Bigram-Korrektur.
debug_noise_removalNeuzuweisung von kleinen Umrissen debuggen
noise_maxperblobMaximal anzuwendende diakritische Zeichen für einen BLOB
noise_maxperword6Maximal zu verwendende diakritische Zeichen für ein Wort
debug_x_ht_levelNeuberechnung der Fehlersuche
quality_min_initial_alphas_reqdalphas auf ein gutes Wort
tessedit_tess_adaption_mode9Anpassungsentscheidungsalgorithmus für Tess
multilang_debug_levelMultilang-Debug-Informationen ausgeben.
absatz_debug_levelAbsatz-Debug-Informationen drucken.
tessedit_preserve_min_wd_lenNur längerfristig bewahren
crunch_rating_maxFür zusätzliche Länge in der Bewertung pro Kanal
crunch_pot_indikatorenWie viele potenzielle Indikatoren werden benötigt?
crunch_leave_lc_stringsWörter mit langen Kleinbuchstaben nicht unterdrücken
crunch_leave_uc_stringsWörter mit langen Kleinbuchstaben nicht unterdrücken
crunch_long_repetitionsKnackige Wörter mit langen Wiederholungen
crunch_debugWie es heißt
fixsp_geraeuschfrei_limitWie viele lärmfreie Blbs auf jeder Seite?
fixsp_done_modeWas für den Abstand getan wird
debug_fix_space_levelDebuggen des kontextabhängigen Fixbereichs
x_ht_akzeptanz_toleranzMaximal zulässige Abweichung der Blob-Oberseite außerhalb der Schriftdaten
x_ht_min_changeMinimaländerung in xht vor dem eigentlichen Versuch
superscript_debugDebuglevel für sub & superscript fixer
jpg_QualitätJPEG-Qualitätsstufe einstellen
benutzer_definiert_dpiDPI für das Eingabebild festlegen
min_characters_to_tryLegen Sie fest, welche Zeichen während des OSD mindestens versucht werden sollen
verdächtige_ebene9Verdächtiger Markerwert
verdächtige_kurze_WörterVerdächtigen Sie dict wds nicht länger als dies
tessedit_reject_modeAblehnungsalgorithmus
tessedit_image_borderRej blbs nahe der Bildrandgrenze
min_sane_x_ht_pixelsJedes x-ht lt oder eq als dies ablehnen
tessedit_page_number-1-1 -> Alle Seiten, sonst bestimmte zu verarbeitende Seite
tessedit_parallelisierenParallelbetrieb, wo möglich
lstm_choice_modeErmöglicht die Einbeziehung alternativer Symbolwahlen in die hOCR-Ausgabe. Gültige Eingabewerte sind 0, 1 und 2. 0 ist der Standardwert. Bei 1 werden die alternativen Symbolwahlen pro Zeitschritt einbezogen. Bei 2 werden alternative Symbolwahlen aus dem CTC-Prozess anstelle des Gitters extrahiert. Die Auswahlmöglichkeiten werden pro Zeichen abgebildet.
lstm_choice_iterationsSetzt die Anzahl der kaskadierenden Iterationen für die Beamsearch im lstm_choice_mode. Beachten Sie, dass lstm_choice_mode auf einen Wert größer als 0 gesetzt werden muss, um Ergebnisse zu erzielen.
tosp_debug_levelDebug-Daten
tosp_ausreichend_Stichproben_für_den_Medianoder sollten wir mean verwenden
tosp_redo_kern_limitAnzahl der Stichproben, die für eine Neuschätzung für eine Zeile erforderlich sind
tosp_wenige_StichprobenAnzahl der Lücken mit 1 großen Lücke zur Behandlung als Tabelle
tosp_short_rowNo.gaps reqd mit wenigen Zertifikatsplätzen zur Verwendung von Zertifikaten
tosp_sanity_methodWie man Dummheit vermeidet
textord_max_noise_sizePixelgröße des Rauschens
textord_baseline_debugGrundlegende Fehlerbehebungsstufe
textord_noise_sizefractionBruchteil der Größe für Maxima
textord_noise_translimit6Übergänge für normale Kleckse
textord_noise_sncountsuper Norm Blobs zum Speichern von Zeilen
verwendung_von_Ambigs_zur_AnpassungVerwenden Sie Ambigs, um zu entscheiden, ob Sie sich an ein Zeichen anpassen wollen
allow_blob_divisionTeilbare Kleckse zum Hacken verwenden
priorisierung_AufteilungVorrang der Blobteilung vor dem Hacken
klassifizieren_aktivieren_lernenAdaptiven Klassifikator einschalten
tess_cn_matchingNormalisierter Abgleich von Zeichen
tess_bn_matchingBaseline Normalisiertes Matching
classify_enable_adaptive_matcherAdaptiven Klassifikator einschalten
classify_use_pre_adapted_templatesVorgefertigte Klassifikatorvorlagen verwenden
classify_save_adapted_templatesAngepasste Vorlagen in einer Datei speichern
classify_enable_adaptive_debuggerMatch-Debugger einschalten
klassifizieren_nichtlinear_normNichtlineare Hubdichtennormierung
zeichen_fragmente_deaktivierenZeichenfragmente nicht in die Ergebnisse des Klassifikators aufnehmen
classify_debug_character_fragmentsGrafische Debugging-Fenster für das Training von Fragmenten einblenden
matcher_debug_separate_windowsVerwenden Sie zwei verschiedene Fenster zum Debuggen des Matchings: Eines für die Protos und eines für die Features.
klassifizieren_bln_numerisch_modeAngenommen, die Eingabe besteht aus Zahlen [0-9].
last_system_dawgLaden Sie das System Wort Dawg.
last_freq_dawgHäufiges Wort laden.
load_unambig_dawgLaden Sie das eindeutige Wort Dawg.
load_punc_dawgLaden Sie Dawg mit Interpunktionsmustern.
load_number_dawgLade Dawg mit Zahlenmustern.
last_bigram_dawgLade Dawg mit speziellen Wort-Bigrammen.
use_only_first_uft8_stepVerwendet nur den ersten UTF8-Schritt der angegebenen Zeichenkette bei der Berechnung der Protokollwahrscheinlichkeiten.
stopper_keine_akzeptablen_AuswahlenAcceptableChoice() soll immer false zurückgeben. Nützlich, wenn die Notwendigkeit besteht, alle Segmentierungen zu untersuchen
segment_nonalphabetisch_scriptVerwenden Sie keine alphabetisch spezifischen Tricks. In der Konfigurationsdatei von traineddata auf true setzen, wenn es sich um kursive Schriften oder Schriften mit festem Zeichenabstand handelt
dokumente_Wörter_speichernDokument Wörter speichern
fragmente_in_der_Matrix_zusammenführenZusammenführen der Fragmente in der Bewertungsmatrix und Löschen der Fragmente nach dem Zusammenführen
wordrec_enable_assocAssoziator Aktivieren
force_word_assocerzwingt die Ausführung des Assoziators unabhängig von der Einstellung enable_assoc. Dies wird für CJK verwendet, wo die Gruppierung von Komponenten erforderlich ist.
chop_enableHäckseln aktivieren
chop_vertical_creepVertikales Kriechen
chop_new_seam_pileNeue seam_pile verwenden
assume_fixed_pitch_char_segmenteinbeziehung von Heuristiken mit fester Tonhöhe in die Zeichensegmentierung
wordrec_skip_no_truth_wordsOCR nur für Wörter ausführen, deren Wahrheit in BlamerBundle aufgezeichnet wurde
wordrec_debug_blamerBlamer-Debug-Meldungen drucken
wordrec_run_blamerVersuchen Sie, die Schuld für Fehler zuzuweisen
auswahlen_alt_speichernSpeichern von alternativen Pfaden, die bei der Zerschneidungs- und Segmentierungssuche gefunden wurden
sprachen_modell_ngramm_einAktivieren/deaktivieren Sie die Verwendung des Zeichen-Ngramm-Modells
sprachenmodell_ngramm_verwendung_ only_first_uft8_stepVerwendet nur den ersten UTF8-Schritt der angegebenen Zeichenkette bei der Berechnung der Protokollwahrscheinlichkeiten.
sprachen_modell_ngramm_raum_ delimited_languageWörter werden durch Leerzeichen getrennt
sprachen_modell_verwendung_sigmoidale_gewissheitVerwenden Sie die sigmoidale Punktzahl für die Gewissheit
tessedit_resegment_from_boxesSegmentierung und Beschriftung aus der Box-Datei übernehmen
tessedit_resegment_aus_line_boxesKonvertierung von Wort-/Zeilen-Box-Dateien in Zeichen-Box-Dateien
tessedit_train_from_boxesErzeugen von Trainingsdaten aus verschlüsselten Zeichen
tessedit_boxen_aus_boxen_herstellenMehr Boxen aus Box-Zeichen generieren
tessedit_train_line_recognizerEingabe in Zeilen umbrechen und Felder neu zuordnen, falls vorhanden
tessedit_dump_pageseg_imagesWährend der Seitensegmentierung erstellte Zwischenbilder ausgeben
tessedit_do_invertVersuchen Sie, das Bild in `LSTMRecognizeWord` zu invertieren
tessedit_ambigs_trainingTraining für Mehrdeutigkeiten durchführen
tessedit_adaption_debugErzeugen und Drucken von Debug-Informationen für die Adaption
applybox_learn_chars_and_char_frags_modeLernen Sie sowohl Zeichenfragmente (wie im speziellen Modus für niedrige Belichtung) als auch nicht fragmentierte Zeichen.
applybox_learn_ngrams_modeEs wird davon ausgegangen, dass jede Bounding Box Ngramme enthält. Lernen Sie nur die Ngramme, deren Umrisse sich horizontal überschneiden.
tessedit_display_outwordsAusgabewörter zeichnen
tessedit_dump_choicesDump-Char-Auswahlen
tessedit_timing_debugZeitstatistiken drucken
tessedit_fix_fuzzy_spacesVersuchen Sie, unscharfe Räume zu verbessern
tessedit_unrej_any_wdBemühen Sie sich nicht um Wortplausibilität
tessedit_fix_hyphensDoppelte Bindestriche knacken?
tessedit_enable_doc_dictWörter in das Dokumentwörterbuch aufnehmen
tessedit_debug_fontsAusgabe von Schriftinformationen pro Zeichen
tessedit_debug_block_rejectionBlock- und Reihenstatistiken
tessedit_enable_bigram_correctionAktivieren Sie die Korrektur auf der Grundlage des Bigram-Wörterbuchs.
tessedit_enable_dict_correctionAktivieren Sie die Korrektur einzelner Wörter auf der Grundlage des Wörterbuchs.
geräusch_entfernen_aktivierenEntfernen und bedingte Neuzuweisung von kleinen Umrissen, wenn sie die Layout-Analyse verwirren, Bestimmung von diakritischen Zeichen und Geräuschen
tessedit_minimal_rej_pass1Minimale Zurückweisung am Ausgang von Pass 1
tessedit_test_adaptionKriterien für die Testanpassung
test_ptTest für Punkt
absatz_text_basiertAbsatzerkennung bei der Post-Text-Erkennung (genauer)
lstm_gebrauch_matrixVerwendung von Bewertungen Matrix/Strahlensuche mit lstm
tessedit_gute_Qualität_unrejVerringerung der Ablehnung von guten Dokumenten
tessedit_verwendet_zurückgewiesene_SpacesRäume ablehnen?
tessedit_preserve_blk_rej_perfect_wdsNur teilweise abgelehnte Wörter in der Blockrückweisung zurückweisen
tessedit_preserve_row_rej_perfect_wdsNur teilweise abgelehnte Wörter in der Zeilenablehnung zurückweisen
tessedit_dont_blkrej_good_wdsQualitätsmetrik für die Wortsegmentierung verwenden
tessedit_dont_rowrej_good_wdsQualitätsmetrik für die Wortsegmentierung verwenden
tessedit_row_rej_good_docsAblehnung von Zeilen auf gute Dokumente anwenden
tessedit_reject_bad_qual_wdsAblehnen aller qualitativ schlechten Wds
tessedit_debug_doc_rejectionSeitenstatistiken
tessedit_debug_quality_metricsDaten in Debug-Datei ausgeben
bland_unrejunkontrolliertes Potenzial
unlv_tilde_crunchingMark v.bad words for tilde crunch
hocr_font_infoSchriftart-Infos zur hocr-Ausgabe hinzufügen
hocr_char_boxesHinzufügen von Koordinaten für jedes Zeichen zur hocr-Ausgabe
crunch_early_merge_tess_failsVor der Wortklauberei?
crunch_early_convert_bad_unlv_chs~^ früh herausnehmen?
crunch_terrible_garbageWie es heißt
crunch_leave_ok_stringsSensible Saiten nicht anfassen
crunch_accept_okAkzeptanz in okstring verwenden
crunch_leave_accept_stringsVernünftige Saiten nicht zerkleinern
crunch_include_numeralsFiddle-Alpha-Zahlen
tessedit_prefer_joined_punctBelohnung Interpunktion verbindet sich
tessedit_write_block_separatorsBlocktrennzeichen in die Ausgabe schreiben
tessedit_write_rep_codesWiederholungszeichencode schreiben
tessedit_write_unlv.unlv-Ausgabedatei schreiben
tessedit_create_txt.txt-Ausgabedatei schreiben
tessedit_erstellen_hocr.html hOCR-Ausgabedatei schreiben
tessedit_erstellen_alto.xml ALTO-Datei schreiben
tessedit_create_lstmboxSchreiben einer .box-Datei für das LSTM-Training
tessedit_create_tsv.tsv-Ausgabedatei schreiben
tessedit_erstellen_WortfeldSchreiben einer Ausgabedatei im WordStr-Format .box
tessedit_erstellen_pdf.pdf-Ausgabedatei schreiben
textonly_pdfPDF mit nur einer unsichtbaren Textebene erstellen
verdächtiger_Einschränkung_1IlUNLV behält 1Il Zeichen zurückgewiesen
tessedit_minimale_AblehnungNur tess-Misserfolge zurückweisen
tessedit_zero_zurückweisungLehnen Sie nicht ALLES ab
tessedit_Wort_für_WortDie Ausgabe soll genau ein Wort pro WERD enthalten
tessedit_zero_kelvin_ablehnungLehnt nichts ab, auch nicht das Geringste
tessedit_zurückweisung_debugDebuggen von Anpassungen
tessedit_flip_0OKontextuelle 0O O0-Flips
rej_trust_doc_dawgDOC-Dawg in 11l konf. Detektor verwenden
rej_1Il_Verwendung_dict_wordDictword-Test verwenden
rej_1Il_trust_permuter_typeÜberprüfen Sie nicht doppelt
rej_use_tess_acceptedIndividuelle Ablehnungskontrolle
rej_use_tess_blanksIndividuelle Ablehnungskontrolle
rej_benutzen_gut_permIndividuelle Ablehnungskontrolle
rej_use_sensible_wdPermuterkontrolle ausweiten
rej_alphas_in_zahl_permPermuterkontrolle ausweiten
tessedit_create_boxfileText mit Boxen ausgeben
tessedit_write_imagesErfassen Sie das Bild vom IPE
interaktiver_AnzeigemodusInteraktiv ausführen?
tessedit_override_permuterNach dict_word
tessedit_verwendet_primäre_Parameter_ModellIm mehrsprachigen Modus verwenden Sie das Modell params der Primärsprache
textord_tabfind_show_vlinesDebug-Zeilenfindung
textord_use_cjk_fp_modelCJK-Modell mit fester Tonhöhe verwenden
poly_allow_detailed_fxErlauben Sie den Merkmalsextraktoren, die ursprüngliche Kontur zu sehen
tessedit_init_config_onlyNur mit der Konfigurationsdatei initialisieren. Nützlich, wenn die Instanz nicht für OCR, sondern z. B. nur für die Layout-Analyse verwendet werden soll.
textord_equation_detectGleichungsdetektor einschalten
textord_tabfind_vertical_textVertikale Erkennung einschalten
textord_tabfind_force_vertical_textVerwendung des vertikalen Textseitenmodus erzwingen
wortzwischenräume_erhaltenMehrere Wortzwischenräume beibehalten
pageseg_apply_music_maskErkennen von Notensystemen und Entfernen von sich überschneidenden Komponenten
textord_single_height_modeDas Skript hat keine x-Höhe, also verwenden Sie einen einzelnen Modus
tosp_old_to_methodPlatzstatistiken mit Vorhacken?
tosp_old_to_constrain_sp_knEinschränkung der relativen Werte der Lücken zwischen und innerhalb von Wörtern für old_to_method.
tosp_only_use_prop_rowsBlockstatistiken zur Verwendung von Reihen mit festem Abstand?
tosp_force_wordbreak_on_punctWortumbrüche bei Punkt erzwingen, um lange Zeilen in nicht durch Leerzeichen getrennten Sprachen umzubrechen
tosp_nutzen_vor_hackenPlatzstatistiken mit Vorhacken?
tosp_old_to_bug_fixBehebung eines vermuteten Fehlers im alten Code
tosp_block_use_cert_spacesNur stat OBVIOUS Räume
tosp_row_use_cert_spacesNur stat OBVIOUS Räume
tosp_narrow_blobs_not_certNur stat OBVIOUS Räume
tosp_row_use_cert_spaces1Nur stat OBVIOUS Räume
tosp_recovery_isolated_row_statsBei unzureichendem Platzangebot nur Reihe verwenden
tosp_nur_kleine_lücken_für_kernBesser raten
tosp_alle_flips_fuzzyPass ANY flip to context?
tosp_fuzzy_limit_allKn->sp fuzzy limit nicht auf Tabellen beschränken
tosp_stats_use_xht_gapsVerwendung innerhalb der xht-Lücke für wd-Pausen
tosp_use_xht_gapsVerwendung innerhalb der xht-Lücke für wd-Pausen
tosp_only_use_xht_gapsNur innerhalb der xht-Lücke für wd-Pausen verwenden
tosp_rule_9_test_punctNicht in den Raum neben dem Punkt einfügen
tosp_flip_fuzz_kn_to_spStandard-Flip
tosp_flip_fuzz_sp_to_knStandard-Flip
tosp_improve_threshVerbesserungsheuristik aktivieren
textord_no_rejectsRauschflecken nicht entfernen
textord_show_blobsUnsortierte Blobs anzeigen
textord_show_boxesUnsortierte Blobs anzeigen
textord_noise_rejwordsGeräuschhafte Wörter ablehnen
textord_noise_rejrowsGeräuschhafte Zeilen ablehnen
textord_geräusch_debugDebug row garbage detector
classify_learn_debug_strKlasse str zu debuggen Lernen
user_words_fileEin Dateiname mit vom Benutzer bereitgestellten Wörtern.
user_words_suffixEin Suffix von benutzerdefinierten Wörtern, die sich in tessdata befinden.
user_patterns_fileEin Dateiname für vom Benutzer bereitgestellte Muster.
benutzer_muster_suffixEin Suffix der vom Benutzer bereitgestellten Muster, die sich in tessdata befinden.
output_ambig_words_fileAusgabedatei für im Wörterbuch gefundene Mehrdeutigkeiten
word_to_debugWort, für das die Stopper-Debug-Informationen auf stdout ausgegeben werden sollen
tessedit_char_blacklistSchwarze Liste der nicht zu erkennenden Zeichen
tessedit_char_whitelistWhitelist der zu erkennenden Zeichen
tessedit_char_unblacklistListe der zu überschreibenden Zeichen tessedit_char_blacklist
tessedit_schreibe_params_zu_dateiSchreibt alle Parameter in die angegebene Datei.
applybox_exposure_pattern.expDer Belichtungswert folgt diesem Muster im Dateinamen des Bildes. Die Namen der Bilddateien werden in der Form [lang].[Schriftname].exp [num].tif erwartet
chs_leading_punct ('`"Führende Interpunktion
chs_trailing_punct1).,;:?!. Nachgestelltes Satzzeichen
chs_trailing_punct2 )'`". Satzzeichen am Ende
umrisse_ungewohnt%Nicht standardmäßige Anzahl von Umrissen
umrisse_2 ij!?%":;Nicht standardmäßige Anzahl von Umrissen
numerische_Zeichensetzung.,Punct. chs erwartet WITHIN Nummern
unerkanntes_ZeichenAusgabezeichen für nicht identifizierte Blobs
ok_repeated_ch_non_alphanum_wds-?*=Erlauben Sie NN, zu rej
konflikt_set_I_l_1Il1 []Il1-Konfliktsatz
dateityp.tifErweiterung des Dateinamens
tessedit_load_sublangsListe der zu ladenden Sprachen mit dieser einen
seiten_trennzeichenSeitentrennzeichen (Standard ist das Steuerzeichen für den Seitenvorschub)
klassifizieren_zeichen_norm_bereich.2Zeichen Normierungsbereich ...
klassifizieren_max_rating_ratio.5Veto-Verhältnis zwischen Klassifikatorbewertungen
classify_max_certainty_margin.5Veto Differenz zwischen Klassifizierungssicherheiten
matcher_good_threshold.125Gutes Spiel (0-1)
matcher_reliable_adaptive_resultGroßes Spiel (0-1)
matcher_perfect_threshold.02Perfektes Spiel (0-1)
matcher_bad_match_pad.15Schlechtes Spiel Pad (0-1)
matcher_rating_margin.1Neuer Vorlagenrand (0-1)
matcher_avg_noise_size2Durchschnittliche Länge des Rauschflecks
matcher_clustering_max_angle_delta.015Maximales Winkeldelta für Prototyp-Clustering
falsches_Schrottgeld_klassifizierenStrafe, die anzuwenden ist, wenn eine Nicht-Alnum vertikal außerhalb der erwarteten Textzeilenposition liegt
rating_skala.5Bewertungsskalierungsfaktor
gewissheit_skala0Sicherheitsskalierungsfaktor
tessedit_class_miss_scale.00390625Skalierungsfaktor für nicht verwendete Merkmale
klassifizieren_angepasste_Beschneidung_Faktor.5Prune schlecht angepasste Ergebnisse so viel schlechter als das beste Ergebnis
classify_adapted_pruning_threshold-1Schwellenwert, bei dem classify_adapted_pruning_factor einsetzt
zeichen_fragmente_klassifizieren garbage_certainty_threshold-3Fragmente, die nicht wie ganze Zeichen aussehen, vom Training und der Anpassung ausschließen
speckle_large_max_size.3Max. große Fleckengröße
speckle_rating_penaltyStrafzuschlag für die schlechteste Bewertung bei Lärm
xheight_penalty_subscripts.125Punktabzug (0,1 = 10 %), wenn ein Wort tief- oder hochgestellte Buchstaben enthält, aber sonst in Ordnung.
xheight_penalty_inconsistent.25Punktabzug (0,1 = 10%), wenn eine x-Höhe nicht konsistent ist.
segment_penalty_dict_frequent_wordPunktemultiplikator für Wortübereinstimmungen, die eine gute Groß-/Kleinschreibung aufweisen und in der gegebenen Sprache häufig vorkommen (niedriger ist besser).
segment_penalty_dict_case_ok.1Punktemultiplikator für Wortübereinstimmungen, die eine gute Groß- und Kleinschreibung aufweisen (kleiner ist besser).
segment_penalty_dict_case_bad.3125Standardmultiplikator für Wortübereinstimmungen, der Probleme mit der Groß- und Kleinschreibung haben kann (niedriger ist besser).
segment_penalty_dict_nonword.25Punktemultiplikator für Glyphenfragment-Segmentierungen, die nicht mit einem Wörterbuchwort übereinstimmen (niedriger ist besser).
segment_strafen_müll.5Punktemultiplikator für schlecht geschriebene Zeichenketten, die nicht im Wörterbuch stehen und generell wie Müll aussehen (niedriger ist besser).
gewissheit_skalaSicherheitsskalierungsfaktor
stopper_nondict_certainty_base-2.5Gewissheitsschwelle für Nicht-Diktat-Wörter
stopper_phase2_gewissheit_zurueckweisung_offsetAblehnung der Sicherheitsverschiebung
stopper_gewissheit_pro_char-0.5Gewissheit, für jedes Diktatzeichen über kleine Wortgröße hinzuzufügen.
stopper_allowable_character_badnessMaximal zulässige Sicherheitsabweichung in einem Wort (in Sigma)
doc_dict_pending_thresholdSchlechteste Sicherheit bei der Verwendung von anhängigen Wörterbüchern
doc_dict_certainty_threshold-2.25Schlimmste Sicherheit für Wörter, die in das Dokumentwörterbuch eingefügt werden können
tessedit_gewissheit_schwelle-2.25Gute Blobgrenze
chop_split_dist_knob.5Einstellung der geteilten Länge
chop_overlap_knob.9Einstellung der geteilten Überlappung
chop_center_knob.15Einstellung der geteilten Mitte
chop_sharpness_knob.06Einstellung der geteilten Schärfe
chop_width_change_knobEinstellung der Breitenänderung
chop_ok_split00OK Splitgrenze
chop_good_split0Gute Splitgrenze
segsearch_max_char_wh_ratioMaximales Verhältnis von Zeichenbreite zu -höhe