在 C# 中設定 Tesseract 配置變量

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOcr Tesseract 介面允許完全控制 Tesseract 配置變量。

IronOcr.TesseractConfiguration 類別

Tesseract 配置代码示例

using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
Imports IronOcr

Private Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.ReadBarCodes = False
Ocr.Configuration.BlackListCharacters = "`ë ^"
Ocr.Configuration.RenderSearchablePdf = True
Ocr.Configuration.RenderHocr = True
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
Ocr.Configuration.TesseractVariables ("tessedit_parallelize") = False

Using Input = New OcrInput("images\image.png")
 Dim Result = Ocr.Read(Input)
 Console.WriteLine(Result.Text)
End Using
VB   C#

所有 Tesseract 配置變量列表

這些可以使用 IronTesseract.Configuration.TesseractVariables 设置。["鍵"] = value;

Tesseract 配置變數預設意義
分類數量 cp 等級修剪器級別數量
textord_debug_tabfind調試標籤查找
textord_debug_bugs開啟與選項卡查找有關的錯誤輸出
textord_testregion_left-1調試報告矩形左邊緣
textord_testregion_top-1調試報告矩形的頂邊
textord_testregion_right147483647調試矩形的右邊緣
textord_testregion_bottom147483647偵錯矩形的底邊
textord_tabfind_show_partitions顯示分區界限,若多於1則等待
devanagari_split_debuglevel分割 shiro-rekha 過程的調試級別。
每個大綱的最大子節點數量字元輪廓內的最大子項數量
最大邊緣子圖層數字元輪廓內嵌套子層的最大層數
每個孫子邊的子女數夾緊輪廓的重要比例
邊緣_子項_數量_限制在 blob 中允許的最大孔數
edges_min_nonhole盒子中潛在字符的最小像素
邊緣路徑面積比率子輪廓可接受的最大鏡頭長度/面積
文字排序_fp_切割_錯誤最大允許的 chop cells 彎曲度
textord_tabfind_show_images顯示影像數據流
平滑偏移量平滑因素
textord_skewsmooth_offset2平滑因素
textord_test_x-2147483647測試點的坐標
textord_test_y-2147483647測試點的坐標
textord_min_blobs_in_row在計算梯度之前的最小斑點數
textord_spline_minblobs每段樣條線段中的最小斑點數
textord_spline_medianwin樣條分割的窗口大小
textord_max_blob_overlaps大區塊允許重疊的小區塊數量上限
文本順序_最小字高最低可信像素高度
textord_lms_line_trials許多行數要做
oldbl_holed_losscount在使用後備線之前最大損失
pitsync_linear_version使用新的快速算法
pitsync_fake_depth最大預付款生成
textord_tabfind_show_strokewidths顯示筆劃寬度
顯示點陣間隙最大容許像素間距
textord_debug_block進行調試的區塊
字元間距範圍仰角最大範圍測試
文本順序_單詞_否決權需要投票否決的行數
equationdetect_save_bi_image將輸入保存為圖片
equationdetect_save_spt_image保存特殊字元影像
equationdetect_save_seed_image儲存種子圖片
equationdetect_save_merged_image保存合併後的圖像
多邊形_調試除錯舊的 poly
更好的多樣化寬物件更準確地接近寬的事物
wordrec_display_splits螢幕分割
textord_debug_printable將調試視窗設為可列印
textord_space_size_is_variable如果為真,則假定單詞分隔符空格具有可變寬度,即使字符具有固定間距。
textord_tabfind_show_initial_partitions顯示分區範圍
textord_tabfind_show_reject_blobs顯示被拒絕為雜訊的斑點
textord_tabfind_show_columns顯示欄邊界
textord_tabfind_show_blocks顯示最終區塊邊界
textord_tabfind_find_tables運行表格檢測
devanagari_split_debugimage是否為分割 shiro-rekha 過程創建除錯圖像。
顯示固定切割繪製固定間距的單元格邊界
edges_use_new_outline_complexity使用新的大綱複雜度模組
邊緣_除錯開啟此模組的除錯功能
邊緣_子項_修正去除類似字符子元素的盒狀父元素
gapmap_debug說出哪些區塊有表格
gapmap_use_ends在行的開頭和結尾使用大間距
gapmap_no_isolated_quanta確保間隙不少於2量子寬
textord_heavy_nr強力去除噪聲
顯示初始行數顯示行累加
顯示平行行的順序文本顯示頁面相關行
顯示展開行展開後顯示行數
textord_show_final_rows最終擬合後顯示行
顯示最終區塊在預處理後顯示 blob 邊界
textord_test_landscape測試指的是陸地/港口
textord_parallel_baselines強制平行基線
textord_straight_baselines強制直基線
textord_old_baselines使用舊基準算法
textord_old_xheight使用舊的 xheight 演算法
textord_fix_xheight_bug使用樣條基線
textord_fix_makerow_bug防止多重基線
textord_debug_xheights測試 xheight 演算法
文本排序偏置傾斜計算偏差傾斜估計使用線條長度
插值傾斜文本顺序跨越空隙插值
textord_new_initial_xheight使用測試 xheight 機制
textord_debug_blob列印測試 Blob 資訊
textord_really_old_xheight使用原始的 wiseowl xheight
textord_oldbl_debug除錯舊基線生成
textord_debug_baselines除錯基線生成
textord_oldbl_paradef使用參數預設機制
舊文本順序分割樣條分割階梯樣條線
textord_oldbl_merge_parts合併可疑分區
舊圖變色校正修正改進高度的相關性
oldbl_xhfix修正 xheights 模式閾值中的錯誤
textord_ocropus_mode為 ocropus 建立基線
textord_tabfind_only_strokewidths僅運行筆劃寬度
textord_tabfind_show_initialtabs顯示標籤候選者
textord_tabfind_show_finaltabs顯示標籤向量
顯示文字表顯示表格區域
textord_tablefind_show_mark詳細的除錯表記步驟
textord_tablefind_show_stats顯示在表格查找中使用的頁面統計數據
textord_tablefind_recognize_tables啟用表格識別器以進行表格佈局和篩選。
textord_all_prop所有文件都是比例文字
textord_debug_pitch_test調試固定間距測試
textord_disable_pitch_test關閉 dp 固定間距算法
textord_fast_pitch_test更快的推銷算法
textord_debug_pitch_metric全寫公制內容
顯示行切割繪製行級剪裁
textord_show_page_cuts繪製頁面級剪切
字序間距作弊使用正確的答案來修正/道具
textord_blockndoc_fixed嘗試整個文件/區塊固定間距
文字順序_顯示初始詞語顯示單獨的單詞
textord_show_new_words顯示單獨的單詞
textord_show_fixed_words顯示強制固定字寬的單詞
textord_blocksall_fixed抱怨道具阻擋
textord_blocksall_prop抱怨固定間距區塊
textord_blocksall_testing當發出抱怨時傾倒統計數據
textord_test_mode進行當前測試
文本順序_間距_大字比例大詞的量化評分
恢復底線文字刪除底線並復原
textord_fp_chopping請進行固定間距切割
textord_force_make_prop_words對所有行強制比例字詞分段
textord_chopper_testChopper 正在測試中。
wordrec_display_all_blobs顯示Blobs
字元識別_blob_暫停Blob 暫停
stream_filelist從標準輸入中串流文件列表
debug_file要發送 tprintf 輸出的檔案
分類字體名稱未知字體用於訓練的預設字體名稱
文件標題輸出文件的標題(用於 hOCR 和 PDF 輸出)
點積自動用於計算點積的函數
分類_cp_angle_pad_loose類別 修剪器 角度 墊 鬆動
分類_cp_angle_pad_medium修剪器角度墊中型
classify_cp_angle_pad_tightCLass 修剪器 角度 墊片 緊
分類_cp_end_pad_loose.5類別修剪工具端墊鬆動
分類_cp_end_pad_medium.5修剪填充中型端板類別
分類_cp_end_pad_tight.5類別 修剪器 端墊 緊
分類_CP_側墊鬆散.5課程修剪器 側墊 鬆動
分類_cp_side_pad_medium.2班級修剪器 側墊 中型
分類_cp側襯墊緊.6類別修剪器側墊緊
分類_pp角度_padProto Pruner 斜角墊
分類_pp_end_pad.5原型修剪結束墊片
識別_pp_側面墊片.5側墊修剪剪刀
分類最小坡度.414214線以下的斜坡稱為水平線
分類最大斜率.41421斜率大於的情況下,直線稱為垂直線
分類_標準_調整_中點調整基準點...
分類_標準_調整_捲曲調整卷曲...
分類_pico_特徵_長度.05Pico 特徵長度
textord_underline_threshold.5寬度所佔的比例
子區域邊緣.5子輪廓的最小區域分數
邊緣_框區域.875盒子孫子區域的最小部分
textord_fp_chop_snap.5頂點與切點的最大距離
gapmap_big_gaps.75xht 倍增器
字序_樣條_移動_分數.02行距的四倍分數
文本排序樣條異常分數.1外來值行距比例
文本顺序_倾斜_分位数.5頁面傾斜的漸變島
文字順序_傾斜滯後.02行累積的滯後偏斜
textord_linespace_iqrlimit.2線性空間的最大四分位距/中值
textord_width_limit行程中塊的最大寬度
文本切割寬度.5最大寬度前剪切
文字順序擴展因子在 expand_rows 中展開行的因子
文本字重疊_x.375适当重叠的行距比例
textord_minxh.25最小 x 高度的行間距分數
textord_min_linesize.25* 初始行高的blob高度
textord_excess_blobsize.3如果 blob 使此行變大,則新增行
文字佔用率閾值.4鄰里的一部分
textord_underline_width多行尺寸下劃線
textord_min_blob_height_fraction.75最小塊高/頂部以將塊頂部包含到 xheight 統計中
textord_xheight_mode_fraction.4最小堆高度以達到字母高度
textord_ascheight_mode_fraction.08最小堆高度以設置為非零高度
textord_descheight_mode_fraction.08最小堆高來達成目標高度
textord_ascx_ratio_min.25最小字母高度/x高度
textord_ascx_ratio_max.8最大上限/字體x高度
textord_descx_ratio_min.25最小描述/字高
textord_descx_ratio_max.6最大下降線/字身高度
文本順序_x高度_誤差裕度.1接受的變體
oldbl_xhfract.4計算中允許的部分
oldbl_dot_error_size.26點的最大縱橫比
textord_oldbl_jumplimit.15X 分數 用於 新分區
pitsync_joined_edge.75大塊內部的分配用於切割
pitsync_offset_freecut_fraction.25免費剪裁比例
textord_tabvector_vertical_gap_fraction.5垂直文字中允許的最大垂直間隙比例計算之平均塊寬度的最小分數
字序_表格向量垂直框比例.5宣告線垂直所需的盒子匹配比例
投影縮放比例.2中間截斷的打鈴比率
文字順序平衡因子非平衡字符单元的丁级
textord_wordstats_smooth_factor.05平滑差距統計
​textord_width_smooth_factor.1平滑寬度統計
textord_words_width_ile.4子母塊寬度的空間配置
textord_words_maxspace多倍字高
textord_words_default_maxspace.5最可信的第三空間
textord_words_default_minspace.6xheight 的分數
文本順序_詞語_最小_最小空間.3xheight 的分數
textord_words_default_nonspace.2xheight 的分數
textord_words_initial_lower.25最大初始叢集大小
textord_words_initial_upper.15最小初始叢集間距
textord_words_minlarge.75所需的有效間隔比例
textord_words_pitchsd_threshold.04音高同步閾值
textord_words_def_fixed.016固定阈值
textord_words_def_prop.09明確屬性的閾值
textord_pitch_rowsimilarity.08相同性的 xheight 分數
字詞_初始_小寫.5最大初始叢集大小
詞首大寫.15最小初始叢集間距
words_default_prop_nonspace.25xheight 的分數
詞語_預設_固定_空格.75xheight 的分數
words_default_fixed_limit.6允許的大小變異
textord_words_definite_spread.3非模糊間距區域
文本_順序_間隔大小_比例fp.8最小比率 空白/非空白
文字順序_空格大小_比例最小比率 空白/非空白
textord_fpiqr_ratio.5音高IQR/间隙IQR 阈值
textord_max_pitch_iqr.2音高中的 Xh 分量噪聲
textord_fp_min_width.5合理斑點的最小寬度
textord_underline_offset.1忽略的 x 部分
調試級別分解級別以解決字元模糊問題
分類調試級別分類除錯層級
分類規範方法正規化方法
匹配器調試級別匹配器除錯級別
matcher_debug_flags匹配器調試標誌
學習調試級別分類學習調試級別:
matcher_permanent_classes_min最少永久類別數量
matcher_min_examples_for_ prototyping可靠配置閾值
matcher_sufficient_examples_ for_prototyping即使未見模糊性,也能實現適應
分類_調整_原型_閾值30自適應過程中良好原型的門檻 0-255
分類_適應_特徵_門檻30在自適應期間選擇優良特徵的閾值0-255
分類_類別_修剪器_閾值29類集修剪器閾值 0-255
分類_類別_修剪器_倍增器5類剪枝乘數 0-255:
分類_cp_截止強度類別 Pruner CutoffStrength:
分類_整數_匹配器_乘數整數匹配器乘數 0-255:
dawg_debug_level設定為1表示一般偵錯資訊,設定為2表示更多詳情,設定為3以查看所有偵錯訊息
hyphen_debug_level連字詞的除錯級別。
停止器_小字_大小詞典單詞的大小被視為非詞典單詞
stopper_debug_level停止除錯級別
tessedit_truncate_wordchoice_log列表中保留的最大字數
最大排列嘗試次數0000考慮排列時不同字符選擇的最大數量。當用戶模式被指定時,這個限制尤其有用,因為過於通用的模式會導致 DAWG 搜索探索過多的選項。
修復未切分的塊修復未切碎的斑點
chop_debug剖析調試
chop_split_length0000拆分長度
切割相同距離相同距離
削減最少輪廓點輪廓上的最小點數
chop_seam_pile_size50縫合堆中的最大縫合數量
內部角度截斷-50最小內部角度彎曲
chop_min_outline_area000最小輪廓區域
居中裁剪最大寬度對於高於此寬度的(較小的)切割斑塊,我們不在意切割是否接近中心。
削減_x_y_權重X / Y 長度 重量
wordrec_debug_level單詞識別調試級別
wordrec_max_join_chunks最多可關聯的破碎部件數量
segsearch_debug_levelSegSearch 調試級別
segsearch_max_pain_points000隊列中存儲的最大痛點數量
segsearch_max_futile_classifications每段痛點分類的最大數量,未導致找到更好的用詞。
語言模型除錯等級語言模型除錯等級
語言模型_n元序字元 ngram 模型的最大順序
language_model_viterbi_list_ max_num_prunable0可修剪的最大數量 (那些可以削減的路徑()是真的) entries in each viterbi list recorded in BLOB_CHOICEs
語言模型維特比列表最大大小00BLOB_CHOICEs 中記錄的 viterbi 列表的最大大小
語言模型最小組合長度複合詞的最小長度
單詞識別顯示分段顯示分段
tessedit_pageseg_mode頁面分割模式:0=僅OSD,1=自動+OSD,2=僅自動,3=自動,4=欄,5=垂直塊,6=塊,7=行,8=單詞,9=單詞圓,10=字符,11=稀疏文本,12=稀疏文本+OSD,13=原始行(來自tesseract/publictypes.h中的PageSegMode枚舉的值)
tessedit_ocr_engine_mode選擇要運行的OCR引擎(Tesseract、LSTM或兩者)。預設為加載和運行最準確的可用引擎。
pageseg_devanagari_split_strategy在執行頁面分割時,是否對天城文檔使用頂行分割過程。
ocr_devanagari_split_strategy在執行 OCR 時,是否將頂行分割程序用於天城文文件。
bidi_debug雙向調試等級
應用框_調試除錯層級
applybox_page應用框的頁碼來源
tessedit_bigram_debug雙字組校正的除錯輸出量。
除錯噪音移除調試小輪廓的重新分配
每個結點的最大噪聲最大附加到塊上的變音符數量
每字最大噪音6最多可應用於一個詞的變音符號數量
debug_x_ht_level重新估算調試
質量_min_initial_alphas_reqd好詞中的字母
tessedit_tess_adaption_mode9適應決策算法適用於tess
多語言_DEBUG_等級列印多語言除錯資訊。
段落_除錯_等級列印段落除錯資訊。
tessedit_preserve_min_wd_len保留長於此的單詞
最佳評估分數對於每個字元的評級中的附加長度
crunch_pot_indicators需要多少潛在指標
crunch_leave_lc_strings不要將有長小寫字符串的單詞壓縮
crunch_leave_uc_strings不要將有長小寫字符串的單詞壓縮
crunch_long_repetitions長重複的關鍵字
緊縮_調試如上所述
修正sp_non_noise_limit兩側有多少非噪聲的圖塊?
fixsp_done_mode什麼構成了完成的間距
debug_fix_space_level上下文修正空格除錯
x_ht_acceptance_tolerance字元頂點偏離字體數據的最大允許偏差
x_ht_min_change嘗試之前的 xht 最小變更
上標_調試子音標和上標修正的調試級別
jpg_quality設置 JPEG 質量級別
使用者定義DPI指定輸入圖片的DPI
最少嘗試字符數指定 OSD 嘗試期間的最小字元數
嫌疑級別9嫌疑標記級別
可疑短詞不要懷疑比這長的詞典詞語
tessedit_reject_mode拒絕演算法
tessedit_image_border附近的圖像邊緣限制Rej blbs
min_sane_x_ht_pixels拒絕任何小於、等於或等於此的 x-ht
頁碼編輯-1-1 -> 所有頁面,否則指定頁面進行處理
tessedit_parallelize儘可能平行運行
lstm_choice_mode允許在 hOCR 輸出中包含替代符號選項。有效輸入值為 0、1 和 2。0 是默認值。選擇 1 時,每個時間步驟包含替代符號選項。選擇 2 時,替代符號選項是從 CTC 過程中提取,而不是來自格點。這些選項會根據每個字符進行映射。
lstm選擇迭代設置 lstm_choice_mode 中 Beamsearch 的級聯迭代次數。請注意,lstm_choice_mode 必須設定為大於 0 的值才能產生結果。
tosp_debug_level除錯數據
為中位數提供足夠的樣本空間還是應該使用mean
tosp_redo_kern_limit需要重新估算的行數樣本
tosp_few_samples無需間隔,僅需一個大間隔以將其視作表格
tosp_short_row沒有縫隙,僅需少量證書空間來使用證書
tosp_合理性方法如何避免愚蠢
textord_max_noise_size噪點的像素大小
文字順序_基線_除錯基準除錯級別
textord_noise_sizefraction最大值的尺寸分數
文字順序雜訊傳輸限制6正常數據塊的過渡
textord_noise_sncount超常模塊以節省行
在適應中使用歧義使用模棱兩可的方法來決定是否適應一個字符
允許_blob_劃分使用可分割的塊切割
優先劃分優先考慮 blob 分割而非裁切
classify_enable_learning啟用自適應分類器
tess_cn_matching字元正規化匹配
tess_bn_matching基線正規化匹配
啟用自適應匹配分類啟用自適應分類器
使用預適應模板進行分類使用預適應分類器模板
分類_儲存_適應的範本將調整後的模板保存到文件
分類_啟用_自適應_偵錯器啟用匹配調試器
分類_非線性_標準非線性筆劃密度正規化
禁用字元碎片在分類器的結果中不要包含字符碎片。
分類_調試_字符_片段調出片段訓練的圖形調試窗口
matcher_debug_separate_windows使用兩個不同的窗口來調試匹配:一個用於樣本,一個用於功能。
分類_bln_數值模式假設輸入是[0-9]的數字。
載入系統字典載入系統詞語 dawg。
載入頻率字典載入常見詞彙資料檔。
加載無歧義DAWG加載明確的詞語 dawg。
載入標點符號_daawg載入帶有標點符號模式的 dawg。
載入數字_da​​wg載入號碼模式與 dawg。
載入_bigram_dawg載入帶有特殊雙字組的 dawg。
use_only_first_uft8_step在計算對數概率時僅使用給定字符串的第一個 UTF8 步驟。
stopper_no_acceptable_choices使AcceptableChoice()方法始終返回false。在需要探索所有分割的情況下很有用。
segment_nonalphabetic_script不要使用任何字母特定的技巧。對於草書或固定寬度的腳本,在traineddata配置文件中設置為true。
保存文件字詞儲存文件字詞
合併矩陣中的片段合併評分矩陣中的片段,並在合併後刪除它們。
wordrec_enable_assoc聯想器啟用
強制字詞關聯強制執行聯結器,無論 enable_assoc 為何。這適用於需要組件分組的 CJK。
啟用切割啟用切碎
垂直切割爬行垂直爬升
chop_new_seam_pile使用新的seam_pile
假定固定間距字元段在字符分割中包含固定間距啟發式算法
wordrec_skip_no_truth_words僅針對在 BlamerBundle 中記錄了真相的單詞運行 OCR。
wordrec_debug_blamer打印故障排除除錯訊息
wordrec_run_blamer嘗試將錯誤歸咎於他人
保存選項保存在裁剪和分段搜索中找到的替代路徑
language_model_ngram_on開啟/關閉使用字元 ngram 模型
language_model_ngram_use_ only_first_uft8_step在計算對數概率時僅使用給定字符串的第一個 UTF8 步驟。
language_model_ngram_space_ delimited_language文字由空格分隔
使用語言模型的S形確定性使用sigmoidal分數來確定
tessedit_resegment_from_boxes從箱文件中進行分割和標記
tessedit_resegment_from_line_boxes將字/行框文件轉換為字元框文件
tessedit_train_from_boxes從盒裝字符生成訓練數據
tessedit_make_boxes_from_boxes生成更多的框架字元框
tessedit_train_line_recognizer將輸入分解成多行,並重新映射框架(如有)
tessedit_dump_pageseg_images導出在頁面分割過程中生成的中間影像
tessedit_do_invert嘗試在 `LSTMRecognizeWord` 中反轉圖像
tessedit_ambigs_training進行歧義訓練
tessedit_adaption_debug生成並打印適應的調試資訊
applybox_learn_chars_and_char_frags_mode同時學習字符片段(如在特殊低曝光模式下所做的那樣)以及未分割的字符。
applybox_learn_ngrams_mode假設每個邊界框都包含 ngrams。只學習輪廓水平方向重疊的 ngrams。
tessedit_display_outwords繪製輸出詞語
tessedit_dump_choices轉儲字符選擇
tessedit_timing_debug列印時間統計
tessedit_fix_fuzzy_spaces嘗試改善模糊間隔
tessedit_unrej_any_wd別費心考慮詞語的合理性
tessedit_fix_hyphens壓縮雙連字符?
tessedit_enable_doc_dict將單詞添加到文檔字典中
tessedit_debug_fonts輸出每個字元的字體資訊
tessedit_debug_block_rejection區塊及行統計
tessedit_enable_bigram_correction啟用基於雙字詞典的校正。
tessedit_enable_dict_correction根據字典啟用單字更正。
啟用去噪移除並有條件地重新分配小輪廓,當它們混淆佈局分析時,確定變音符號與噪聲之間的區別。
tessedit_minimal_rej_pass1對第一步輸出進行最小化拒絕
tessedit_test_adaption測試適應標準
測試點測試點
段落_基於文本在文字識別後進行段落檢測(更準確)
lstm_use_matrix使用評分矩陣/光束搜尋與LSTM
tessedit_good_quality_unrej減少良好文件的拒絕率
tessedit_use_reject_spaces拒絕空格?
tessedit_preserve_blk_rej_perfect_wds僅在區塊拒絕中部分拒絕的詞語
tessedit_preserve_row_rej_perfect_wds僅在行拒絕中重新拒絕部分被拒絕的詞語
tessedit_dont_blkrej_good_wds使用詞彙分割質量指標
tessedit_dont_rowrej_good_wds使用詞彙分割質量指標
tessedit_row_rej_good_docs對優質文件應用行拒絕
tessedit_reject_bad_qual_wds拒絕所有劣質的wds
tessedit_debug_doc_rejection頁面統計
tessedit_debug_quality_metrics將數據輸出到調試文件
bland_unrej無檢查的潛力釋放
unlv_tilde_CRUNCHING標記 v.壞詞 for tilde crunch
hocr_font_info將字體信息添加到 hocr 輸出
hocr_char_boxes將每個字元的座標新增到 hocr 輸出
crunch_early_merge_tess_fails在進行文字壓縮之前?
crunch_early_convert_bad_unlv_chs提早取出 ~^?
搗碎_糟糕_垃圾如上所述
緊縮_離開_確認_字符串不要觸碰敏感字串
crunch_accept_ok在 okstring 中使用 acceptability
壓縮_離開_接受_字符串不要把合理的字符串硬壓縮
crunch_include_numerals試驗初期數據
tessedit_prefer_joined_punct獎勵標點符號加入
tessedit_write_block_separators在輸出中寫入區塊分隔符
tessedit_write_rep_codes寫重複字符代碼
tessedit_write_unlv撰寫.unlv輸出檔案
tessedit_create_txt寫.txt輸出檔案
tessedit_create_hocr撰寫 .html hOCR 輸出文件
tessedit_create_alto撰寫 .xml ALTO 檔案
tessedit_create_lstmbox為 LSTM 訓練編寫 .box 文件
tessedit_create_tsv編寫.tsv輸出文件
tessedit_create_wordstrbox撰寫 WordStr 格式 .box 輸出文件
tessedit_create_pdf編寫 .pdf 輸出檔案
僅文本_PDF僅創建一個不可見文本層的 PDF
懷疑_約束_1IlUNLV 保留 1Il 字元被拒
tessedit_minimal_rejection只拒絕 tess 失敗
tessedit_zero_rejection請勿拒絕任何事物
逐字識別使輸出每個WERD有且僅有一個單詞
tessedit_zero_kelvin_rejection不要拒絕任何東西
tessedit_rejection_debug適應調試
tessedit_flip_0O上下文 0O O0 翻轉
rej_trust_doc_dawg使用 DOC dawg 在 11l conf. 檢測器
rej_1Il_use_dict_word使用 dictword 測試
rej_1Il_trust_permuter_type不要重複檢查
rej_use_tess_accepted個別拒絕控制
rej_use_tess_blanks個別拒絕控制
rej_use_good_perm個別拒絕控制
rej_use_sensible_wd延伸排列檢查
rej_alphas_in_number_perm延伸排列檢查
tessedit_create_boxfile輸出帶有框的文字
tessedit_write_images從 IPE 擷取影像
互動顯示模式互動運行?
tessedit_override_permuter根據 dict_word
使用tessedit_use_primary_params_model在多語言模式下,使用主要語言的參數模型
textord_tabfind_show_vlines調試行檢測
textord_use_cjk_fp_model使用 CJK 固定間距模型
允許詳盡特效允許特徵提取器查看原始大綱
tessedit_init_config_only僅使用配置文件初始化。如果實例不會用於OCR,只是用於佈局分析,這將會很有用。
textord_equation_detect打開方程式偵測器
textord_tabfind_vertical_text啟用垂直檢測
textord_tabfind_force_vertical_text強制使用縱向文字頁模式
保留_單詞_間_空格保留多個單詞間的空格
應用音樂遮罩頁面段落檢測五線譜並移除相交的組件
文本訂單_單一高度模式由於字體沒有 xheight,因此請使用單一模式
tosp_old_to_method空間統計使用預切割嗎?
tosp_old_to_constrain_sp_kn約束 old_to_method 的內部和外部單詞間距的相對值。
只使用屬性列使用固定單元行的區塊統計?
tosp_force_wordbreak_on_punct在無空格分隔語言中強制在標點符號處換行,以分段長行。
tosp_use_pre_chopping空間統計使用預切割嗎?
舊輸入檔案轉移到錯誤修復修復舊代碼中的疑似錯誤
tosp_block_use_cert_spaces僅限填寫明顯的空格
使用證書空格記號的行僅限填寫明顯的空格
tosp_narrow_blobs_not_cert僅限填寫明顯的空格
tosp_row_use_cert_spaces1僅限填寫明顯的空格
tosp_recovery_isolated_row_stats當認證空間不足時,使用單行。
tosp_only_small_gaps_for_kern更好的猜測
tosp_all_flips_fuzzy將任何翻轉傳送至上下文?
tosp_fuzzy_limit_all不要將 kn->sp 模糊限制限制於表格上
tosp_stats_use_xht_gaps在 xht 間隙內使用 wd 斷裂
tosp_use_xht_gaps在 xht 間隙內使用 wd 斷裂
僅使用 XHT 間隙僅在 wd 斷點內使用 xht 間隙
tosp_rule_9_test_punct請勿將標點符號旁邊的字改成空格。
tosp_flip_fuzz_kn_to_sp預設翻轉
tosp_flip_fuzz_sp_to_kn預設翻轉
tosp_improve_thresh啟用改進啟發式算法
textord_no_rejects不要移除噪點斑點
顯示文字區塊顯示未排序的blob
顯示文字盒顯示未排序的blob
textord_noise_rejwords拒絕噪音詞
textord_noise_rejrows拒絕類似噪音的行
文本秩序噪点调试調試行垃圾檢測器
分類_學習_調試_str類別 str 到 debug 學習
用戶單詞檔案使用者提供的檔名。
用戶字詞後綴位於 tessdata 的使用者提供的字詞後綴。
使用者模式檔案使用者提供的模式檔名。
使用者模式_後綴位於tessdata中的使用者提供模式後綴。
output_ambig_words_file字典中發現歧義的輸出檔案
word_to_debug應將哪個單詞的調試信息輸出到標準輸出(stdout)
tessedit_char_blacklist不識別的字符黑名單
tessedit_char_whitelist允許識別字符列表
tessedit_char_unblacklist要覆蓋的 tessedit_char_blacklist 字符列表
tessedit_write_params_to_file將所有參數寫入指定的檔案。
applybox_exposure_pattern.exp曝光值遵循圖像檔案名稱中的此模式。圖像檔案的名稱應為[lang].[fontname].exp [num].tif
chs_leading_punct ('`"領先標點
chs_尾隨的_punct1).,;:?!第一尾隨標點符號
chs_trailing_punct2 )'`"第二個尾隨標點符號
大綱_奇數%非標準數量的大綱
outlines_2 ij!?%":;非標準數量的大綱
數字標點.,數字內應有標點
未識別的字元未識別的斑點輸出字元
ok_repeated_ch_non_alphanum_wds-?*=允許NN取消拒絕
衝突設置_I_l_1Il1 []Il1 衝突集
文件類型.tif文件名扩展名
tessedit_load_sublangs其他需加載的語言列表
頁面分隔符頁分隔符(默認為換頁控制字符)
字符_规范_范围分类.2字元正規化範圍 ...
最大評分比率分類.5分類器評級之間的否決比率
分類最大確定性邊緣.5否決分類器確定性之間的差異
匹配器良好阈值.125良好匹配 (0-1)
匹配器_可靠_自適應_結果精彩比賽 (0-1)
匹配器完美閾值.02完美匹配 (0-1)
匹配器_不匹配_填充.15不匹配填充 (0-1)
匹配器評分邊距.1新範本邊距 (0-1)
匹配器平均噪點大小2平均噪音區塊長度
匹配器_聚類_最大角度變化.015原型聚類的最大角度增量
分類_不合適_垃圾_懲罰當非字母數字符號在其預期的文本行位置之外垂直出現時應用的懲罰
評分尺度.5評級縮放因子
確定性量表0確定性縮放因子
tessedit_class_miss_scale.00390625特徵未使用的縮放係數
分類_調整_修剪_因數.5將適應不良的結果修剪至比最佳結果差很多的程度
分類_調整_修剪_閾值-1分類調整修剪因子的啟動閾值
將字符片段進行分類 garbage_certainty_threshold-3排除訓練和適應中不看起來像完整字符的片段
最大斑點尺寸.3最大大斑點尺寸
斑點評分懲罰將最差評分增加的噪音罰款
xheight_penalty_subscripts.125如果單詞中有下標或上標,則會加上罰分(0.1 = 10%),但除此之外可以接受。
xheight_penalty_inconsistent.25如果 xheight 不一致,則添加分數懲罰 (0.1 = 10%)。
段落懲罰詞典頻繁詞單字符合度的分數乘數,這些單字在大小寫正確且在給定語言中頻繁出現(數值越低越好)。
段落處理費詞典案子正常.1字母大小寫匹配良好的字詞得分乘數(越低越好)。
segment_penalty_dict_case_bad.3125預設的詞語匹配分數乘數,可能有大小寫問題(越低越好)。
segment_penalty_dict_nonword.25字形片段分割分數乘數不匹配詞典單詞(越低越好)。
段落懲罰垃圾.5對於不在字典中且一般看起來像垃圾的大小寫不正確的字符串的分數乘數(越低越好)。
確定性量表確定性縮放因子
停止器_nondict_確定性_基礎-2.5非詞彙字詞的確定性閾值
確定性拒絕偏移第二階段停止器拒絕確定性偏移
停滯_確定性_每_字符-0.5確定為每個上面的小單詞大小添加字典字符。
停止允許字符不良單詞允許的最大確定性變異(以 sigma 計)
doc_dict_pending_threshold使用待處理字典的最壞確定性
文件詞典確定性閾值-2.25可以插入文件詞典的單詞的最差確定性
tessedit_certainty_threshold-2.25良好的 Blob 限制
chop_split_dist_knob.5分離長度調整
切重疊旋鈕.9分割重疊調整
切中心旋鈕.15調整中心分割
尖銳度調節旋鈕.06分割銳度調整
切寬變更旋鈕寬度變更調整
chop_ok_split00好的拆分限制
chop_good_split0良好的分割限制
segsearch_max_char_wh_ratio最大字元寬高比率