如何使用Iron Tesseract
IronOCR 提供了一個直觀的 API,用於利用定制和優化的 Tesseract 5,稱為 Iron Tesseract。 使用IronOCR和IronTesseract,您將能夠將文字圖像和掃描文檔轉換成文字和可搜索的PDF文件。
開始使用IronOCR
立即在您的專案中使用IronOCR,並享受免費試用。
如何使用Iron Tesseract
- 使用 NuGet 安裝 OCR 函式庫以讀取影像
- 使用自訂 Tesseract 5 進行光學字元識別 (OCR)
- 載入所需的文件,例如圖像或 PDF 檔案,以進行處理。
- 將提取的文本輸出到控制台或文件
- 將結果保存為可搜索的 PDF
創建 IronTesseract 實例
只需像這樣初始化一個 tesseract 對象:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-initialize-irontesseract.cs
using IronOcr;
IronTesseract ocr = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
您可以通過選擇不同的語言、啟用條碼識別以及白名單/黑名單字符來自訂 IronTesseract 的行為:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-configure-irontesseract.cs
IronTesseract ocr = new IronTesseract
{
Configuration = new TesseractConfiguration
{
ReadBarCodes = false,
RenderHocr = true,
TesseractVariables = null,
WhiteListCharacters = null,
BlackListCharacters = "`ë|^",
},
MultiThreaded = false,
Language = OcrLanguage.English,
EnableTesseractConsoleMessages = true, // False as default
};
Dim ocr As New IronTesseract With {
.Configuration = New TesseractConfiguration With {
.ReadBarCodes = False,
.RenderHocr = True,
.TesseractVariables = Nothing,
.WhiteListCharacters = Nothing,
.BlackListCharacters = "`ë|^"
},
.MultiThreaded = False,
.Language = OcrLanguage.English,
.EnableTesseractConsoleMessages = True
}
完成此操作後,您可以使用 Tesseract 功能來讀取 OcrInput
對象:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-read.cs
IronTesseract ocr = new IronTesseract();
using OcrInput input = new OcrInput();
input.LoadImage("attachment.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadImage("attachment.png")
Dim result As OcrResult = ocr.Read(input)
Dim text As String = result.Text
End Using
進階 Tesseract 配置變數
IronOcr Tesseract 介面允許完全控制 Tesseract 配置變量。
IronOcr.TesseractConfiguration 類別
Tesseract 配置代码示例
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-tesseract-configuration.cs
using IronOcr;
using System;
IronTesseract Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.English;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
// Configure Tesseract Engine
Ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;
using var input = new OcrInput();
input.LoadImage("/path/file.png");
OcrResult Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Imports IronOcr
Imports System
Private Ocr As New IronTesseract()
Ocr.Language = OcrLanguage.English
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
' Configure Tesseract Engine
Ocr.Configuration.TesseractVariables("tessedit_parallelize") = False
Dim input = New OcrInput()
input.LoadImage("/path/file.png")
Dim Result As OcrResult = Ocr.Read(input)
Console.WriteLine(Result.Text)
所有 Tesseract 配置變量列表
這些可以使用 IronTesseract.Configuration.TesseractVariables 设置。["鍵"] = value;
Tesseract 配置變數 | 預設 | 意義 |
---|---|---|
分類數量 cp 等級 | 修剪器級別數量 | |
textord_debug_tabfind | 調試標籤查找 | |
textord_debug_bugs | 開啟與選項卡查找有關的錯誤輸出 | |
textord_testregion_left | -1 | 調試報告矩形左邊緣 |
textord_testregion_top | -1 | 調試報告矩形的頂邊 |
textord_testregion_right | 147483647 | 調試矩形的右邊緣 |
textord_testregion_bottom | 147483647 | 偵錯矩形的底邊 |
textord_tabfind_show_partitions | 顯示分區界限,若多於1則等待 | |
devanagari_split_debuglevel | 分割 shiro-rekha 過程的調試級別。 | |
每個大綱的最大子節點數量 | 字元輪廓內的最大子項數量 | |
最大邊緣子圖層數 | 字元輪廓內嵌套子層的最大層數 | |
每個孫子邊的子女數 | 夾緊輪廓的重要比例 | |
邊緣_子項_數量_限制 | 在 blob 中允許的最大孔數 | |
edges_min_nonhole | 盒子中潛在字符的最小像素 | |
邊緣路徑面積比率 | 子輪廓可接受的最大鏡頭長度/面積 | |
文字排序_fp_切割_錯誤 | 最大允許的 chop cells 彎曲度 | |
textord_tabfind_show_images | 顯示影像數據流 | |
平滑偏移量 | 平滑因素 | |
textord_skewsmooth_offset2 | 平滑因素 | |
textord_test_x | -2147483647 | 測試點的坐標 |
textord_test_y | -2147483647 | 測試點的坐標 |
textord_min_blobs_in_row | 在計算梯度之前的最小斑點數 | |
textord_spline_minblobs | 每段樣條線段中的最小斑點數 | |
textord_spline_medianwin | 樣條分割的窗口大小 | |
textord_max_blob_overlaps | 大區塊允許重疊的小區塊數量上限 | |
文本順序_最小字高 | 最低可信像素高度 | |
textord_lms_line_trials | 許多行數要做 | |
oldbl_holed_losscount | 在使用後備線之前最大損失 | |
pitsync_linear_version | 使用新的快速算法 | |
pitsync_fake_depth | 最大預付款生成 | |
textord_tabfind_show_strokewidths | 顯示筆劃寬度 | |
顯示點陣間隙 | 最大容許像素間距 | |
textord_debug_block | 進行調試的區塊 | |
字元間距範圍 | 仰角最大範圍測試 | |
文本順序_單詞_否決權 | 需要投票否決的行數 | |
equationdetect_save_bi_image | 將輸入保存為圖片 | |
equationdetect_save_spt_image | 保存特殊字元影像 | |
equationdetect_save_seed_image | 儲存種子圖片 | |
equationdetect_save_merged_image | 保存合併後的圖像 | |
多邊形_調試 | 除錯舊的 poly | |
更好的多樣化寬物件 | 更準確地接近寬的事物 | |
wordrec_display_splits | 螢幕分割 | |
textord_debug_printable | 將調試視窗設為可列印 | |
textord_space_size_is_variable | 如果為真,則假定單詞分隔符空格具有可變寬度,即使字符具有固定間距。 | |
textord_tabfind_show_initial_partitions | 顯示分區範圍 | |
textord_tabfind_show_reject_blobs | 顯示被拒絕為雜訊的斑點 | |
textord_tabfind_show_columns | 顯示欄邊界 | |
textord_tabfind_show_blocks | 顯示最終區塊邊界 | |
textord_tabfind_find_tables | 運行表格檢測 | |
devanagari_split_debugimage | 是否為分割 shiro-rekha 過程創建除錯圖像。 | |
顯示固定切割 | 繪製固定間距的單元格邊界 | |
edges_use_new_outline_complexity | 使用新的大綱複雜度模組 | |
邊緣_除錯 | 開啟此模組的除錯功能 | |
邊緣_子項_修正 | 去除類似字符子元素的盒狀父元素 | |
gapmap_debug | 說出哪些區塊有表格 | |
gapmap_use_ends | 在行的開頭和結尾使用大間距 | |
gapmap_no_isolated_quanta | 確保間隙不少於2量子寬 | |
textord_heavy_nr | 強力去除噪聲 | |
顯示初始行數 | 顯示行累加 | |
顯示平行行的順序文本 | 顯示頁面相關行 | |
顯示展開行 | 展開後顯示行數 | |
textord_show_final_rows | 最終擬合後顯示行 | |
顯示最終區塊 | 在預處理後顯示 blob 邊界 | |
textord_test_landscape | 測試指的是陸地/港口 | |
textord_parallel_baselines | 強制平行基線 | |
textord_straight_baselines | 強制直基線 | |
textord_old_baselines | 使用舊基準算法 | |
textord_old_xheight | 使用舊的 xheight 演算法 | |
textord_fix_xheight_bug | 使用樣條基線 | |
textord_fix_makerow_bug | 防止多重基線 | |
textord_debug_xheights | 測試 xheight 演算法 | |
文本排序偏置傾斜計算 | 偏差傾斜估計使用線條長度 | |
插值傾斜文本顺序 | 跨越空隙插值 | |
textord_new_initial_xheight | 使用測試 xheight 機制 | |
textord_debug_blob | 列印測試 Blob 資訊 | |
textord_really_old_xheight | 使用原始的 wiseowl xheight | |
textord_oldbl_debug | 除錯舊基線生成 | |
textord_debug_baselines | 除錯基線生成 | |
textord_oldbl_paradef | 使用參數預設機制 | |
舊文本順序分割樣條 | 分割階梯樣條線 | |
textord_oldbl_merge_parts | 合併可疑分區 | |
舊圖變色校正修正 | 改進高度的相關性 | |
oldbl_xhfix | 修正 xheights 模式閾值中的錯誤 | |
textord_ocropus_mode | 為 ocropus 建立基線 | |
textord_tabfind_only_strokewidths | 僅運行筆劃寬度 | |
textord_tabfind_show_initialtabs | 顯示標籤候選者 | |
textord_tabfind_show_finaltabs | 顯示標籤向量 | |
顯示文字表 | 顯示表格區域 | |
textord_tablefind_show_mark | 詳細的除錯表記步驟 | |
textord_tablefind_show_stats | 顯示在表格查找中使用的頁面統計數據 | |
textord_tablefind_recognize_tables | 啟用表格識別器以進行表格佈局和篩選。 | |
textord_all_prop | 所有文件都是比例文字 | |
textord_debug_pitch_test | 調試固定間距測試 | |
textord_disable_pitch_test | 關閉 dp 固定間距算法 | |
textord_fast_pitch_test | 更快的推銷算法 | |
textord_debug_pitch_metric | 全寫公制內容 | |
顯示行切割 | 繪製行級剪裁 | |
textord_show_page_cuts | 繪製頁面級剪切 | |
字序間距作弊 | 使用正確的答案來修正/道具 | |
textord_blockndoc_fixed | 嘗試整個文件/區塊固定間距 | |
文字順序_顯示初始詞語 | 顯示單獨的單詞 | |
textord_show_new_words | 顯示單獨的單詞 | |
textord_show_fixed_words | 顯示強制固定字寬的單詞 | |
textord_blocksall_fixed | 抱怨道具阻擋 | |
textord_blocksall_prop | 抱怨固定間距區塊 | |
textord_blocksall_testing | 當發出抱怨時傾倒統計數據 | |
textord_test_mode | 進行當前測試 | |
文本順序_間距_大字比例 | 大詞的量化評分 | |
恢復底線文字 | 刪除底線並復原 | |
textord_fp_chopping | 請進行固定間距切割 | |
textord_force_make_prop_words | 對所有行強制比例字詞分段 | |
textord_chopper_test | Chopper 正在測試中。 | |
wordrec_display_all_blobs | 顯示Blobs | |
字元識別_blob_暫停 | Blob 暫停 | |
stream_filelist | 從標準輸入中串流文件列表 | |
debug_file | 要發送 tprintf 輸出的檔案 | |
分類字體名稱 | 未知字體 | 用於訓練的預設字體名稱 |
文件標題 | 輸出文件的標題(用於 hOCR 和 PDF 輸出) | |
點積 | 自動 | 用於計算點積的函數 |
分類_cp_angle_pad_loose | 類別 修剪器 角度 墊 鬆動 | |
分類_cp_angle_pad_medium | 修剪器角度墊中型 | |
classify_cp_angle_pad_tight | CLass 修剪器 角度 墊片 緊 | |
分類_cp_end_pad_loose | .5 | 類別修剪工具端墊鬆動 |
分類_cp_end_pad_medium | .5 | 修剪填充中型端板類別 |
分類_cp_end_pad_tight | .5 | 類別 修剪器 端墊 緊 |
分類_CP_側墊鬆散 | .5 | 課程修剪器 側墊 鬆動 |
分類_cp_side_pad_medium | .2 | 班級修剪器 側墊 中型 |
分類_cp側襯墊緊 | .6 | 類別修剪器側墊緊 |
分類_pp角度_pad | Proto Pruner 斜角墊 | |
分類_pp_end_pad | .5 | 原型修剪結束墊片 |
識別_pp_側面墊片 | .5 | 側墊修剪剪刀 |
分類最小坡度 | .414214 | 線以下的斜坡稱為水平線 |
分類最大斜率 | .41421 | 斜率大於的情況下,直線稱為垂直線 |
分類_標準_調整_中點 | 調整基準點... | |
分類_標準_調整_捲曲 | 調整卷曲... | |
分類_pico_特徵_長度 | .05 | Pico 特徵長度 |
textord_underline_threshold | .5 | 寬度所佔的比例 |
子區域邊緣 | .5 | 子輪廓的最小區域分數 |
邊緣_框區域 | .875 | 盒子孫子區域的最小部分 |
textord_fp_chop_snap | .5 | 頂點與切點的最大距離 |
gapmap_big_gaps | .75 | xht 倍增器 |
字序_樣條_移動_分數 | .02 | 行距的四倍分數 |
文本排序樣條異常分數 | .1 | 外來值行距比例 |
文本顺序_倾斜_分位数 | .5 | 頁面傾斜的漸變島 |
文字順序_傾斜滯後 | .02 | 行累積的滯後偏斜 |
textord_linespace_iqrlimit | .2 | 線性空間的最大四分位距/中值 |
textord_width_limit | 行程中塊的最大寬度 | |
文本切割寬度 | .5 | 最大寬度前剪切 |
文字順序擴展因子 | 在 expand_rows 中展開行的因子 | |
文本字重疊_x | .375 | 适当重叠的行距比例 |
textord_minxh | .25 | 最小 x 高度的行間距分數 |
textord_min_linesize | .25 | * 初始行高的blob高度 |
textord_excess_blobsize | .3 | 如果 blob 使此行變大,則新增行 |
文字佔用率閾值 | .4 | 鄰里的一部分 |
textord_underline_width | 多行尺寸下劃線 | |
textord_min_blob_height_fraction | .75 | 最小塊高/頂部以將塊頂部包含到 xheight 統計中 |
textord_xheight_mode_fraction | .4 | 最小堆高度以達到字母高度 |
textord_ascheight_mode_fraction | .08 | 最小堆高度以設置為非零高度 |
textord_descheight_mode_fraction | .08 | 最小堆高來達成目標高度 |
textord_ascx_ratio_min | .25 | 最小字母高度/x高度 |
textord_ascx_ratio_max | .8 | 最大上限/字體x高度 |
textord_descx_ratio_min | .25 | 最小描述/字高 |
textord_descx_ratio_max | .6 | 最大下降線/字身高度 |
文本順序_x高度_誤差裕度 | .1 | 接受的變體 |
oldbl_xhfract | .4 | 計算中允許的部分 |
oldbl_dot_error_size | .26 | 點的最大縱橫比 |
textord_oldbl_jumplimit | .15 | X 分數 用於 新分區 |
pitsync_joined_edge | .75 | 大塊內部的分配用於切割 |
pitsync_offset_freecut_fraction | .25 | 免費剪裁比例 |
textord_tabvector_vertical_gap_fraction | .5 | 垂直文字中允許的最大垂直間隙比例計算之平均塊寬度的最小分數 |
字序_表格向量垂直框比例 | .5 | 宣告線垂直所需的盒子匹配比例 |
投影縮放比例 | .2 | 中間截斷的打鈴比率 |
文字順序平衡因子 | 非平衡字符单元的丁级 | |
textord_wordstats_smooth_factor | .05 | 平滑差距統計 |
textord_width_smooth_factor | .1 | 平滑寬度統計 |
textord_words_width_ile | .4 | 子母塊寬度的空間配置 |
textord_words_maxspace | 多倍字高 | |
textord_words_default_maxspace | .5 | 最可信的第三空間 |
textord_words_default_minspace | .6 | xheight 的分數 |
文本順序_詞語_最小_最小空間 | .3 | xheight 的分數 |
textord_words_default_nonspace | .2 | xheight 的分數 |
textord_words_initial_lower | .25 | 最大初始叢集大小 |
textord_words_initial_upper | .15 | 最小初始叢集間距 |
textord_words_minlarge | .75 | 所需的有效間隔比例 |
textord_words_pitchsd_threshold | .04 | 音高同步閾值 |
textord_words_def_fixed | .016 | 固定阈值 |
textord_words_def_prop | .09 | 明確屬性的閾值 |
textord_pitch_rowsimilarity | .08 | 相同性的 xheight 分數 |
字詞_初始_小寫 | .5 | 最大初始叢集大小 |
詞首大寫 | .15 | 最小初始叢集間距 |
words_default_prop_nonspace | .25 | xheight 的分數 |
詞語_預設_固定_空格 | .75 | xheight 的分數 |
words_default_fixed_limit | .6 | 允許的大小變異 |
textord_words_definite_spread | .3 | 非模糊間距區域 |
文本_順序_間隔大小_比例fp | .8 | 最小比率 空白/非空白 |
文字順序_空格大小_比例 | 最小比率 空白/非空白 | |
textord_fpiqr_ratio | .5 | 音高IQR/间隙IQR 阈值 |
textord_max_pitch_iqr | .2 | 音高中的 Xh 分量噪聲 |
textord_fp_min_width | .5 | 合理斑點的最小寬度 |
textord_underline_offset | .1 | 忽略的 x 部分 |
調試級別 | 分解級別以解決字元模糊問題 | |
分類調試級別 | 分類除錯層級 | |
分類規範方法 | 正規化方法 | |
匹配器調試級別 | 匹配器除錯級別 | |
matcher_debug_flags | 匹配器調試標誌 | |
學習調試級別分類 | 學習調試級別: | |
matcher_permanent_classes_min | 最少永久類別數量 | |
matcher_min_examples_for_ prototyping | 可靠配置閾值 | |
matcher_sufficient_examples_ for_prototyping | 即使未見模糊性,也能實現適應 | |
分類_調整_原型_閾值 | 30 | 自適應過程中良好原型的門檻 0-255 |
分類_適應_特徵_門檻 | 30 | 在自適應期間選擇優良特徵的閾值0-255 |
分類_類別_修剪器_閾值 | 29 | 類集修剪器閾值 0-255 |
分類_類別_修剪器_倍增器 | 5 | 類剪枝乘數 0-255: |
分類_cp_截止強度 | 類別 Pruner CutoffStrength: | |
分類_整數_匹配器_乘數 | 整數匹配器乘數 0-255: | |
dawg_debug_level | 設定為1表示一般偵錯資訊,設定為2表示更多詳情,設定為3以查看所有偵錯訊息 | |
hyphen_debug_level | 連字詞的除錯級別。 | |
停止器_小字_大小 | 詞典單詞的大小被視為非詞典單詞 | |
stopper_debug_level | 停止除錯級別 | |
tessedit_truncate_wordchoice_log | 列表中保留的最大字數 | |
最大排列嘗試次數 | 0000 | 考慮排列時不同字符選擇的最大數量。當用戶模式被指定時,這個限制尤其有用,因為過於通用的模式會導致 DAWG 搜索探索過多的選項。 |
修復未切分的塊 | 修復未切碎的斑點 | |
chop_debug | 剖析調試 | |
chop_split_length | 0000 | 拆分長度 |
切割相同距離 | 相同距離 | |
削減最少輪廓點 | 輪廓上的最小點數 | |
chop_seam_pile_size | 50 | 縫合堆中的最大縫合數量 |
內部角度截斷 | -50 | 最小內部角度彎曲 |
chop_min_outline_area | 000 | 最小輪廓區域 |
居中裁剪最大寬度 | 對於高於此寬度的(較小的)切割斑塊,我們不在意切割是否接近中心。 | |
削減_x_y_權重 | X / Y 長度 重量 | |
wordrec_debug_level | 單詞識別調試級別 | |
wordrec_max_join_chunks | 最多可關聯的破碎部件數量 | |
segsearch_debug_level | SegSearch 調試級別 | |
segsearch_max_pain_points | 000 | 隊列中存儲的最大痛點數量 |
segsearch_max_futile_classifications | 每段痛點分類的最大數量,未導致找到更好的用詞。 | |
語言模型除錯等級 | 語言模型除錯等級 | |
語言模型_n元序 | 字元 ngram 模型的最大順序 | |
language_model_viterbi_list_ max_num_prunable | 0 | 可修剪的最大數量 (那些可以削減的路徑()是真的) entries in each viterbi list recorded in BLOB_CHOICEs |
語言模型維特比列表最大大小 | 00 | BLOB_CHOICEs 中記錄的 viterbi 列表的最大大小 |
語言模型最小組合長度 | 複合詞的最小長度 | |
單詞識別顯示分段 | 顯示分段 | |
tessedit_pageseg_mode | 頁面分割模式:0=僅OSD,1=自動+OSD,2=僅自動,3=自動,4=欄,5=垂直塊,6=塊,7=行,8=單詞,9=單詞圓,10=字符,11=稀疏文本,12=稀疏文本+OSD,13=原始行(來自tesseract/publictypes.h中的PageSegMode枚舉的值) | |
tessedit_ocr_engine_mode | 選擇要運行的OCR引擎(Tesseract、LSTM或兩者)。預設為加載和運行最準確的可用引擎。 | |
pageseg_devanagari_split_strategy | 在執行頁面分割時,是否對天城文檔使用頂行分割過程。 | |
ocr_devanagari_split_strategy | 在執行 OCR 時,是否將頂行分割程序用於天城文文件。 | |
bidi_debug | 雙向調試等級 | |
應用框_調試 | 除錯層級 | |
applybox_page | 應用框的頁碼來源 | |
tessedit_bigram_debug | 雙字組校正的除錯輸出量。 | |
除錯噪音移除 | 調試小輪廓的重新分配 | |
每個結點的最大噪聲 | 最大附加到塊上的變音符數量 | |
每字最大噪音 | 6 | 最多可應用於一個詞的變音符號數量 |
debug_x_ht_level | 重新估算調試 | |
質量_min_initial_alphas_reqd | 好詞中的字母 | |
tessedit_tess_adaption_mode | 9 | 適應決策算法適用於tess |
多語言_DEBUG_等級 | 列印多語言除錯資訊。 | |
段落_除錯_等級 | 列印段落除錯資訊。 | |
tessedit_preserve_min_wd_len | 保留長於此的單詞 | |
最佳評估分數 | 對於每個字元的評級中的附加長度 | |
crunch_pot_indicators | 需要多少潛在指標 | |
crunch_leave_lc_strings | 不要將有長小寫字符串的單詞壓縮 | |
crunch_leave_uc_strings | 不要將有長小寫字符串的單詞壓縮 | |
crunch_long_repetitions | 長重複的關鍵字 | |
緊縮_調試 | 如上所述 | |
修正sp_non_noise_limit | 兩側有多少非噪聲的圖塊? | |
fixsp_done_mode | 什麼構成了完成的間距 | |
debug_fix_space_level | 上下文修正空格除錯 | |
x_ht_acceptance_tolerance | 字元頂點偏離字體數據的最大允許偏差 | |
x_ht_min_change | 嘗試之前的 xht 最小變更 | |
上標_調試 | 子音標和上標修正的調試級別 | |
jpg_quality | 設置 JPEG 質量級別 | |
使用者定義DPI | 指定輸入圖片的DPI | |
最少嘗試字符數 | 指定 OSD 嘗試期間的最小字元數 | |
嫌疑級別 | 9 | 嫌疑標記級別 |
可疑短詞 | 不要懷疑比這長的詞典詞語 | |
tessedit_reject_mode | 拒絕演算法 | |
tessedit_image_border | 附近的圖像邊緣限制Rej blbs | |
min_sane_x_ht_pixels | 拒絕任何小於、等於或等於此的 x-ht | |
頁碼編輯 | -1 | -1 -> 所有頁面,否則指定頁面進行處理 |
tessedit_parallelize | 儘可能平行運行 | |
lstm_choice_mode | 允許在 hOCR 輸出中包含替代符號選項。有效輸入值為 0、1 和 2。0 是默認值。選擇 1 時,每個時間步驟包含替代符號選項。選擇 2 時,替代符號選項是從 CTC 過程中提取,而不是來自格點。這些選項會根據每個字符進行映射。 | |
lstm選擇迭代 | 設置 lstm_choice_mode 中 Beamsearch 的級聯迭代次數。請注意,lstm_choice_mode 必須設定為大於 0 的值才能產生結果。 | |
tosp_debug_level | 除錯數據 | |
為中位數提供足夠的樣本空間 | 還是應該使用mean | |
tosp_redo_kern_limit | 需要重新估算的行數樣本 | |
tosp_few_samples | 無需間隔,僅需一個大間隔以將其視作表格 | |
tosp_short_row | 沒有縫隙,僅需少量證書空間來使用證書 | |
tosp_合理性方法 | 如何避免愚蠢 | |
textord_max_noise_size | 噪點的像素大小 | |
文字順序_基線_除錯 | 基準除錯級別 | |
textord_noise_sizefraction | 最大值的尺寸分數 | |
文字順序雜訊傳輸限制 | 6 | 正常數據塊的過渡 |
textord_noise_sncount | 超常模塊以節省行 | |
在適應中使用歧義 | 使用模棱兩可的方法來決定是否適應一個字符 | |
允許_blob_劃分 | 使用可分割的塊切割 | |
優先劃分 | 優先考慮 blob 分割而非裁切 | |
classify_enable_learning | 啟用自適應分類器 | |
tess_cn_matching | 字元正規化匹配 | |
tess_bn_matching | 基線正規化匹配 | |
啟用自適應匹配分類 | 啟用自適應分類器 | |
使用預適應模板進行分類 | 使用預適應分類器模板 | |
分類_儲存_適應的範本 | 將調整後的模板保存到文件 | |
分類_啟用_自適應_偵錯器 | 啟用匹配調試器 | |
分類_非線性_標準 | 非線性筆劃密度正規化 | |
禁用字元碎片 | 在分類器的結果中不要包含字符碎片。 | |
分類_調試_字符_片段 | 調出片段訓練的圖形調試窗口 | |
matcher_debug_separate_windows | 使用兩個不同的窗口來調試匹配:一個用於樣本,一個用於功能。 | |
分類_bln_數值模式 | 假設輸入是[0-9]的數字。 | |
載入系統字典 | 載入系統詞語 dawg。 | |
載入頻率字典 | 載入常見詞彙資料檔。 | |
加載無歧義DAWG | 加載明確的詞語 dawg。 | |
載入標點符號_daawg | 載入帶有標點符號模式的 dawg。 | |
載入數字_dawg | 載入號碼模式與 dawg。 | |
載入_bigram_dawg | 載入帶有特殊雙字組的 dawg。 | |
use_only_first_uft8_step | 在計算對數概率時僅使用給定字符串的第一個 UTF8 步驟。 | |
stopper_no_acceptable_choices | 使AcceptableChoice()方法始終返回false。在需要探索所有分割的情況下很有用。 | |
segment_nonalphabetic_script | 不要使用任何字母特定的技巧。對於草書或固定寬度的腳本,在traineddata配置文件中設置為true。 | |
保存文件字詞 | 儲存文件字詞 | |
合併矩陣中的片段 | 合併評分矩陣中的片段,並在合併後刪除它們。 | |
wordrec_enable_assoc | 聯想器啟用 | |
強制字詞關聯 | 強制執行聯結器,無論 enable_assoc 為何。這適用於需要組件分組的 CJK。 | |
啟用切割 | 啟用切碎 | |
垂直切割爬行 | 垂直爬升 | |
chop_new_seam_pile | 使用新的seam_pile | |
假定固定間距字元段 | 在字符分割中包含固定間距啟發式算法 | |
wordrec_skip_no_truth_words | 僅針對在 BlamerBundle 中記錄了真相的單詞運行 OCR。 | |
wordrec_debug_blamer | 打印故障排除除錯訊息 | |
wordrec_run_blamer | 嘗試將錯誤歸咎於他人 | |
保存選項 | 保存在裁剪和分段搜索中找到的替代路徑 | |
language_model_ngram_on | 開啟/關閉使用字元 ngram 模型 | |
language_model_ngram_use_ only_first_uft8_step | 在計算對數概率時僅使用給定字符串的第一個 UTF8 步驟。 | |
language_model_ngram_space_ delimited_language | 文字由空格分隔 | |
使用語言模型的S形確定性 | 使用sigmoidal分數來確定 | |
tessedit_resegment_from_boxes | 從箱文件中進行分割和標記 | |
tessedit_resegment_from_line_boxes | 將字/行框文件轉換為字元框文件 | |
tessedit_train_from_boxes | 從盒裝字符生成訓練數據 | |
tessedit_make_boxes_from_boxes | 生成更多的框架字元框 | |
tessedit_train_line_recognizer | 將輸入分解成多行,並重新映射框架(如有) | |
tessedit_dump_pageseg_images | 導出在頁面分割過程中生成的中間影像 | |
tessedit_do_invert | 嘗試在 `LSTMRecognizeWord` 中反轉圖像 | |
tessedit_ambigs_training | 進行歧義訓練 | |
tessedit_adaption_debug | 生成並打印適應的調試資訊 | |
applybox_learn_chars_and_char_frags_mode | 同時學習字符片段(如在特殊低曝光模式下所做的那樣)以及未分割的字符。 | |
applybox_learn_ngrams_mode | 假設每個邊界框都包含 ngrams。只學習輪廓水平方向重疊的 ngrams。 | |
tessedit_display_outwords | 繪製輸出詞語 | |
tessedit_dump_choices | 轉儲字符選擇 | |
tessedit_timing_debug | 列印時間統計 | |
tessedit_fix_fuzzy_spaces | 嘗試改善模糊間隔 | |
tessedit_unrej_any_wd | 別費心考慮詞語的合理性 | |
tessedit_fix_hyphens | 壓縮雙連字符? | |
tessedit_enable_doc_dict | 將單詞添加到文檔字典中 | |
tessedit_debug_fonts | 輸出每個字元的字體資訊 | |
tessedit_debug_block_rejection | 區塊及行統計 | |
tessedit_enable_bigram_correction | 啟用基於雙字詞典的校正。 | |
tessedit_enable_dict_correction | 根據字典啟用單字更正。 | |
啟用去噪 | 移除並有條件地重新分配小輪廓,當它們混淆佈局分析時,確定變音符號與噪聲之間的區別。 | |
tessedit_minimal_rej_pass1 | 對第一步輸出進行最小化拒絕 | |
tessedit_test_adaption | 測試適應標準 | |
測試點 | 測試點 | |
段落_基於文本 | 在文字識別後進行段落檢測(更準確) | |
lstm_use_matrix | 使用評分矩陣/光束搜尋與LSTM | |
tessedit_good_quality_unrej | 減少良好文件的拒絕率 | |
tessedit_use_reject_spaces | 拒絕空格? | |
tessedit_preserve_blk_rej_perfect_wds | 僅在區塊拒絕中部分拒絕的詞語 | |
tessedit_preserve_row_rej_perfect_wds | 僅在行拒絕中重新拒絕部分被拒絕的詞語 | |
tessedit_dont_blkrej_good_wds | 使用詞彙分割質量指標 | |
tessedit_dont_rowrej_good_wds | 使用詞彙分割質量指標 | |
tessedit_row_rej_good_docs | 對優質文件應用行拒絕 | |
tessedit_reject_bad_qual_wds | 拒絕所有劣質的wds | |
tessedit_debug_doc_rejection | 頁面統計 | |
tessedit_debug_quality_metrics | 將數據輸出到調試文件 | |
bland_unrej | 無檢查的潛力釋放 | |
unlv_tilde_CRUNCHING | 標記 v.壞詞 for tilde crunch | |
hocr_font_info | 將字體信息添加到 hocr 輸出 | |
hocr_char_boxes | 將每個字元的座標新增到 hocr 輸出 | |
crunch_early_merge_tess_fails | 在進行文字壓縮之前? | |
crunch_early_convert_bad_unlv_chs | 提早取出 ~^? | |
搗碎_糟糕_垃圾 | 如上所述 | |
緊縮_離開_確認_字符串 | 不要觸碰敏感字串 | |
crunch_accept_ok | 在 okstring 中使用 acceptability | |
壓縮_離開_接受_字符串 | 不要把合理的字符串硬壓縮 | |
crunch_include_numerals | 試驗初期數據 | |
tessedit_prefer_joined_punct | 獎勵標點符號加入 | |
tessedit_write_block_separators | 在輸出中寫入區塊分隔符 | |
tessedit_write_rep_codes | 寫重複字符代碼 | |
tessedit_write_unlv | 撰寫.unlv輸出檔案 | |
tessedit_create_txt | 寫.txt輸出檔案 | |
tessedit_create_hocr | 撰寫 .html hOCR 輸出文件 | |
tessedit_create_alto | 撰寫 .xml ALTO 檔案 | |
tessedit_create_lstmbox | 為 LSTM 訓練編寫 .box 文件 | |
tessedit_create_tsv | 編寫.tsv輸出文件 | |
tessedit_create_wordstrbox | 撰寫 WordStr 格式 .box 輸出文件 | |
tessedit_create_pdf | 編寫 .pdf 輸出檔案 | |
僅文本_PDF | 僅創建一個不可見文本層的 PDF | |
懷疑_約束_1Il | UNLV 保留 1Il 字元被拒 | |
tessedit_minimal_rejection | 只拒絕 tess 失敗 | |
tessedit_zero_rejection | 請勿拒絕任何事物 | |
逐字識別 | 使輸出每個WERD有且僅有一個單詞 | |
tessedit_zero_kelvin_rejection | 不要拒絕任何東西 | |
tessedit_rejection_debug | 適應調試 | |
tessedit_flip_0O | 上下文 0O O0 翻轉 | |
rej_trust_doc_dawg | 使用 DOC dawg 在 11l conf. 檢測器 | |
rej_1Il_use_dict_word | 使用 dictword 測試 | |
rej_1Il_trust_permuter_type | 不要重複檢查 | |
rej_use_tess_accepted | 個別拒絕控制 | |
rej_use_tess_blanks | 個別拒絕控制 | |
rej_use_good_perm | 個別拒絕控制 | |
rej_use_sensible_wd | 延伸排列檢查 | |
rej_alphas_in_number_perm | 延伸排列檢查 | |
tessedit_create_boxfile | 輸出帶有框的文字 | |
tessedit_write_images | 從 IPE 擷取影像 | |
互動顯示模式 | 互動運行? | |
tessedit_override_permuter | 根據 dict_word | |
使用tessedit_use_primary_params_model | 在多語言模式下,使用主要語言的參數模型 | |
textord_tabfind_show_vlines | 調試行檢測 | |
textord_use_cjk_fp_model | 使用 CJK 固定間距模型 | |
允許詳盡特效 | 允許特徵提取器查看原始大綱 | |
tessedit_init_config_only | 僅使用配置文件初始化。如果實例不會用於OCR,只是用於佈局分析,這將會很有用。 | |
textord_equation_detect | 打開方程式偵測器 | |
textord_tabfind_vertical_text | 啟用垂直檢測 | |
textord_tabfind_force_vertical_text | 強制使用縱向文字頁模式 | |
保留_單詞_間_空格 | 保留多個單詞間的空格 | |
應用音樂遮罩頁面段落 | 檢測五線譜並移除相交的組件 | |
文本訂單_單一高度模式 | 由於字體沒有 xheight,因此請使用單一模式 | |
tosp_old_to_method | 空間統計使用預切割嗎? | |
tosp_old_to_constrain_sp_kn | 約束 old_to_method 的內部和外部單詞間距的相對值。 | |
只使用屬性列 | 使用固定單元行的區塊統計? | |
tosp_force_wordbreak_on_punct | 在無空格分隔語言中強制在標點符號處換行,以分段長行。 | |
tosp_use_pre_chopping | 空間統計使用預切割嗎? | |
舊輸入檔案轉移到錯誤修復 | 修復舊代碼中的疑似錯誤 | |
tosp_block_use_cert_spaces | 僅限填寫明顯的空格 | |
使用證書空格記號的行 | 僅限填寫明顯的空格 | |
tosp_narrow_blobs_not_cert | 僅限填寫明顯的空格 | |
tosp_row_use_cert_spaces1 | 僅限填寫明顯的空格 | |
tosp_recovery_isolated_row_stats | 當認證空間不足時,使用單行。 | |
tosp_only_small_gaps_for_kern | 更好的猜測 | |
tosp_all_flips_fuzzy | 將任何翻轉傳送至上下文? | |
tosp_fuzzy_limit_all | 不要將 kn->sp 模糊限制限制於表格上 | |
tosp_stats_use_xht_gaps | 在 xht 間隙內使用 wd 斷裂 | |
tosp_use_xht_gaps | 在 xht 間隙內使用 wd 斷裂 | |
僅使用 XHT 間隙 | 僅在 wd 斷點內使用 xht 間隙 | |
tosp_rule_9_test_punct | 請勿將標點符號旁邊的字改成空格。 | |
tosp_flip_fuzz_kn_to_sp | 預設翻轉 | |
tosp_flip_fuzz_sp_to_kn | 預設翻轉 | |
tosp_improve_thresh | 啟用改進啟發式算法 | |
textord_no_rejects | 不要移除噪點斑點 | |
顯示文字區塊 | 顯示未排序的blob | |
顯示文字盒 | 顯示未排序的blob | |
textord_noise_rejwords | 拒絕噪音詞 | |
textord_noise_rejrows | 拒絕類似噪音的行 | |
文本秩序噪点调试 | 調試行垃圾檢測器 | |
分類_學習_調試_str | 類別 str 到 debug 學習 | |
用戶單詞檔案 | 使用者提供的檔名。 | |
用戶字詞後綴 | 位於 tessdata 的使用者提供的字詞後綴。 | |
使用者模式檔案 | 使用者提供的模式檔名。 | |
使用者模式_後綴 | 位於tessdata中的使用者提供模式後綴。 | |
output_ambig_words_file | 字典中發現歧義的輸出檔案 | |
word_to_debug | 應將哪個單詞的調試信息輸出到標準輸出(stdout) | |
tessedit_char_blacklist | 不識別的字符黑名單 | |
tessedit_char_whitelist | 允許識別字符列表 | |
tessedit_char_unblacklist | 要覆蓋的 tessedit_char_blacklist 字符列表 | |
tessedit_write_params_to_file | 將所有參數寫入指定的檔案。 | |
applybox_exposure_pattern | .exp | 曝光值遵循圖像檔案名稱中的此模式。圖像檔案的名稱應為[lang].[fontname].exp [num].tif |
chs_leading_punct ('`" | 領先標點 | |
chs_尾隨的_punct1 | ).,;:?! | 第一尾隨標點符號 |
chs_trailing_punct2 )'`" | 第二個尾隨標點符號 | |
大綱_奇數 | % | 非標準數量的大綱 |
outlines_2 ij!?%":; | 非標準數量的大綱 | |
數字標點 | ., | 數字內應有標點 |
未識別的字元 | 未識別的斑點輸出字元 | |
ok_repeated_ch_non_alphanum_wds | -?*= | 允許NN取消拒絕 |
衝突設置_I_l_1 | Il1 [] | Il1 衝突集 |
文件類型 | .tif | 文件名扩展名 |
tessedit_load_sublangs | 其他需加載的語言列表 | |
頁面分隔符 | 頁分隔符(默認為換頁控制字符) | |
字符_规范_范围分类 | .2 | 字元正規化範圍 ... |
最大評分比率分類 | .5 | 分類器評級之間的否決比率 |
分類最大確定性邊緣 | .5 | 否決分類器確定性之間的差異 |
匹配器良好阈值 | .125 | 良好匹配 (0-1) |
匹配器_可靠_自適應_結果 | 精彩比賽 (0-1) | |
匹配器完美閾值 | .02 | 完美匹配 (0-1) |
匹配器_不匹配_填充 | .15 | 不匹配填充 (0-1) |
匹配器評分邊距 | .1 | 新範本邊距 (0-1) |
匹配器平均噪點大小 | 2 | 平均噪音區塊長度 |
匹配器_聚類_最大角度變化 | .015 | 原型聚類的最大角度增量 |
分類_不合適_垃圾_懲罰 | 當非字母數字符號在其預期的文本行位置之外垂直出現時應用的懲罰 | |
評分尺度 | .5 | 評級縮放因子 |
確定性量表 | 0 | 確定性縮放因子 |
tessedit_class_miss_scale | .00390625 | 特徵未使用的縮放係數 |
分類_調整_修剪_因數 | .5 | 將適應不良的結果修剪至比最佳結果差很多的程度 |
分類_調整_修剪_閾值 | -1 | 分類調整修剪因子的啟動閾值 |
將字符片段進行分類 garbage_certainty_threshold | -3 | 排除訓練和適應中不看起來像完整字符的片段 |
最大斑點尺寸 | .3 | 最大大斑點尺寸 |
斑點評分懲罰 | 將最差評分增加的噪音罰款 | |
xheight_penalty_subscripts | .125 | 如果單詞中有下標或上標,則會加上罰分(0.1 = 10%),但除此之外可以接受。 |
xheight_penalty_inconsistent | .25 | 如果 xheight 不一致,則添加分數懲罰 (0.1 = 10%)。 |
段落懲罰詞典頻繁詞 | 單字符合度的分數乘數,這些單字在大小寫正確且在給定語言中頻繁出現(數值越低越好)。 | |
段落處理費詞典案子正常 | .1 | 字母大小寫匹配良好的字詞得分乘數(越低越好)。 |
segment_penalty_dict_case_bad | .3125 | 預設的詞語匹配分數乘數,可能有大小寫問題(越低越好)。 |
segment_penalty_dict_nonword | .25 | 字形片段分割分數乘數不匹配詞典單詞(越低越好)。 |
段落懲罰垃圾 | .5 | 對於不在字典中且一般看起來像垃圾的大小寫不正確的字符串的分數乘數(越低越好)。 |
確定性量表 | 確定性縮放因子 | |
停止器_nondict_確定性_基礎 | -2.5 | 非詞彙字詞的確定性閾值 |
確定性拒絕偏移第二階段停止器 | 拒絕確定性偏移 | |
停滯_確定性_每_字符 | -0.5 | 確定為每個上面的小單詞大小添加字典字符。 |
停止允許字符不良 | 單詞允許的最大確定性變異(以 sigma 計) | |
doc_dict_pending_threshold | 使用待處理字典的最壞確定性 | |
文件詞典確定性閾值 | -2.25 | 可以插入文件詞典的單詞的最差確定性 |
tessedit_certainty_threshold | -2.25 | 良好的 Blob 限制 |
chop_split_dist_knob | .5 | 分離長度調整 |
切重疊旋鈕 | .9 | 分割重疊調整 |
切中心旋鈕 | .15 | 調整中心分割 |
尖銳度調節旋鈕 | .06 | 分割銳度調整 |
切寬變更旋鈕 | 寬度變更調整 | |
chop_ok_split | 00 | 好的拆分限制 |
chop_good_split | 0 | 良好的分割限制 |
segsearch_max_char_wh_ratio | 最大字元寬高比率 |