如何使用 Iron Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR 提供了直觀的 API 來使用客製化和優化的 Tesseract 5,即 Iron Tesseract。通過使用 IronOCR 和 IronTesseract,您將能夠將文字圖像和掃描文件轉換為文字和可搜索的 PDF。

C# NuGet 程式庫用于 OCR

安裝與 NuGet

Install-Package IronOcr
Java PDF JAR

下載 DLL

下載DLL

手動安裝到您的項目中

C# NuGet 程式庫用于 OCR

安裝與 NuGet

Install-Package IronOcr
Java PDF JAR

下載 DLL

下載DLL

手動安裝到您的項目中

立即開始在您的專案中使用IronPDF,並享受免費試用。

第一步:
green arrow pointer

查看 IronOCRNuget 快速安裝和部署。已被下載超過800萬次,它正用C#改變OCR。

C# NuGet 程式庫用于 OCR nuget.org/packages/IronOcr/
Install-Package IronOcr

請考慮安裝 IronOCR DLL 直接下載並手動安裝到您的專案或GAC表單: IronOcr.zip

手動安裝到您的項目中

下載DLL

創建 IronTesseract 實例

只需像這樣初始化一個 tesseract 物件:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-initialize-irontesseract.cs
using IronOcr;

IronTesseract ocr = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

您可以通過選擇不同的語言、啟用條碼識別以及白名單/黑名單字符來自訂 IronTesseract 的行為:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-configure-irontesseract.cs
IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        ReadBarCodes = false,
        RenderHocr = true,
        TesseractVariables = null,
        WhiteListCharacters = null,
        BlackListCharacters = "`ë|^",
    },
    MultiThreaded = false,
    Language = OcrLanguage.English,
    EnableTesseractConsoleMessages = true, // False as default
};
Dim ocr As New IronTesseract With {
	.Configuration = New TesseractConfiguration With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.TesseractVariables = Nothing,
		.WhiteListCharacters = Nothing,
		.BlackListCharacters = "`ë|^"
	},
	.MultiThreaded = False,
	.Language = OcrLanguage.English,
	.EnableTesseractConsoleMessages = True
}
VB   C#

完成此操作後,您可以使用 Tesseract 功能來讀取 OcrInput 對象:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-read.cs
IronTesseract ocr = new IronTesseract();

using OcrInput input = new OcrInput();
input.LoadImage("attachment.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Dim ocr As New IronTesseract()

Using input As New OcrInput()
	input.LoadImage("attachment.png")
	Dim result As OcrResult = ocr.Read(input)
	Dim text As String = result.Text
End Using
VB   C#

進階 Tesseract 配置變量

IronOCR Tesseract 接口允許完全控制 Tesseract 配置變量通過

IronOcr.TesseractConfiguration 類別

Tesseract 配置代码示例

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-tesseract-configuration.cs
using IronOcr;
using System;

IronTesseract Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Configure Tesseract Engine
Ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;

using var input = new OcrInput();
input.LoadImage("/path/file.png");

OcrResult Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Imports IronOcr
Imports System

Private Ocr As New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd

' Configure Tesseract Engine
Ocr.Configuration.TesseractVariables("tessedit_parallelize") = False

Dim input = New OcrInput()
input.LoadImage("/path/file.png")

Dim Result As OcrResult = Ocr.Read(input)
Console.WriteLine(Result.Text)
VB   C#

所有 Tesseract 配置變量列表

這些可以通過 IronTesseract.Configuration.TesseractVariables 進行設置。 ["鍵"] = value;`

Tesseract 配置變數預設意義
分類數量 cp 等級3修剪器級別數量
textord_debug_tabfind0調試標籤查找
textord_debug_bugs0開啟與選項卡查找有關的錯誤輸出
textord_testregion_left-1調試報告矩形左邊緣
textord_testregion_top-1調試報告矩形的頂邊
textord_testregion_right2147483647調試矩形的右邊緣
textord_testregion_bottom2147483647偵錯矩形的底邊
textord_tabfind_show_partitions0顯示分區界限,若多於1則等待
devanagari_split_debuglevel0分割 shiro-rekha 過程的調試級別。
每個大綱的最大子節點數量10字元輪廓內的最大子項數量
最大邊緣子圖層數5字元輪廓內嵌套子層的最大層數
每個孫子邊的子女數10夾緊輪廓的重要比例
邊緣_子項_數量_限制45在 blob 中允許的最大孔數
edges_min_nonhole12盒子中潛在字符的最小像素
邊緣路徑面積比率40子輪廓可接受的最大鏡頭長度/面積
文字排序_fp_切割_錯誤2最大允許的 chop cells 彎曲度
textord_tabfind_show_images0顯示影像數據流
平滑偏移量4平滑因素
平滑偏移量21平滑因素
textord_test_x-2147483647測試點的坐標
textord_test_y-2147483647測試點的坐標
textord_min_blobs_in_row4在計算梯度之前的最小斑點數
textord_spline_minblobs8每段樣條線段中的最小斑點數
textord_spline_medianwin6樣條分割的窗口大小
textord_max_blob_overlaps4大區塊允許重疊的小區塊數量上限
文本順序_最小字高10最低可信像素高度
textord_lms_line_trials12許多行數要做
oldbl_holed_losscount10在使用後備線之前最大損失
pitsync_linear_version6使用新的快速算法
pitsync_fake_depth1最大預付款生成
textord_tabfind_show_strokewidths0顯示筆劃寬度
顯示點陣間隙3最大容許像素間距
textord_debug_block0進行調試的區塊
字元間距範圍2仰角最大範圍測試
文本順序_單詞_否決權5需要投票否決的行數
equationdetect_save_bi_image0將輸入保存為圖片
equationdetect_save_spt_image0保存特殊字元影像
equationdetect_save_seed_image0儲存種子圖片
equationdetect_save_merged_image0保存合併後的圖像
多邊形_調試0除錯舊的 poly
更好的多樣化寬物件1更準確地接近寬的事物
wordrec_display_splits0螢幕分割
textord_debug_printable0將調試視窗設為可列印
textord_space_size_is_variable0如果為真,則假定單詞分隔符空格具有可變寬度,即使字符具有固定間距。
textord_tabfind_show_initial_partitions0顯示分區範圍
textord_tabfind_show_reject_blobs0顯示被拒絕為雜訊的斑點
textord_tabfind_show_columns0顯示欄邊界
textord_tabfind_show_blocks0顯示最終區塊邊界
textord_tabfind_find_tables1運行表格檢測
devanagari_split_debugimage0是否為分割 shiro-rekha 過程創建除錯圖像。
顯示固定切割0繪製固定間距的單元格邊界
edges_use_new_outline_complexity0使用新的大綱複雜度模組
邊緣_除錯0開啟此模組的除錯功能
邊緣_子項_修正0去除類似字符子元素的盒狀父元素
gapmap_debug0說出哪些區塊有表格
gapmap_use_ends0在行的開頭和結尾使用大間距
gapmap_no_isolated_quanta0確保間隙不少於2量子寬
textord_heavy_nr0強力去除噪聲
顯示初始行數0顯示行累加
顯示平行行的順序文本0顯示頁面相關行
顯示展開行0展開後顯示行數
textord_show_final_rows0最終擬合後顯示行
顯示最終區塊0在預處理後顯示 blob 邊界
textord_test_landscape0測試指的是陸地/港口
textord_parallel_baselines1強制平行基線
textord_straight_baselines0強制直基線
textord_old_baselines1使用舊基準算法
textord_old_xheight0使用舊的 xheight 演算法
textord_fix_xheight_bug1使用樣條基線
textord_fix_makerow_bug1防止多重基線
textord_debug_xheights0測試 xheight 演算法
文本排序偏置傾斜計算1偏差傾斜估計使用線條長度
插值傾斜文本顺序1跨越空隙插值
textord_new_initial_xheight1使用測試 xheight 機制
textord_debug_blob0列印測試 Blob 資訊
textord_really_old_xheight0使用原始的 wiseowl xheight
textord_oldbl_debug0除錯舊基線生成
textord_debug_baselines0除錯基線生成
textord_oldbl_paradef1使用參數預設機制
舊文本順序分割樣條1分割階梯樣條線
textord_oldbl_merge_parts1合併可疑分區
舊圖變色校正修正1改進高度的相關性
oldbl_xhfix0修正 xheights 模式閾值中的錯誤
textord_ocropus_mode0為 ocropus 建立基線
textord_tabfind_only_strokewidths0僅運行筆劃寬度
textord_tabfind_show_initialtabs0顯示標籤候選者
textord_tabfind_show_finaltabs0顯示標籤向量
顯示文字表0顯示表格區域
textord_tablefind_show_mark0詳細的除錯表記步驟
textord_tablefind_show_stats0顯示在表格查找中使用的頁面統計數據
textord_tablefind_recognize_tables0啟用表格識別器以進行表格佈局和篩選。
textord_all_prop0所有文件都是比例文字
textord_debug_pitch_test0調試固定間距測試
textord_disable_pitch_test0關閉 dp 固定間距算法
textord_fast_pitch_test0更快的推銷算法
textord_debug_pitch_metric0全寫公制內容
顯示行切割0繪製行級剪裁
textord_show_page_cuts0繪製頁面級剪切
字序間距作弊0使用正確的答案來修正/道具
textord_blockndoc_fixed0嘗試整個文件/區塊固定間距
文字順序_顯示初始詞語0顯示單獨的單詞
textord_show_new_words0顯示單獨的單詞
textord_show_fixed_words0顯示強制固定字寬的單詞
textord_blocksall_fixed0抱怨道具阻擋
textord_blocksall_prop0抱怨固定間距區塊
textord_blocksall_testing0當發出抱怨時傾倒統計數據
textord_test_mode0進行當前測試
文本順序_間距_大字比例0大詞的量化評分
恢復底線文字1刪除底線並復原
textord_fp_chopping1請進行固定間距切割
textord_force_make_prop_words0對所有行強制比例字詞分段
textord_chopper_test0Chopper 正在測試中。
wordrec_display_all_blobs0顯示Blobs
字元識別_blob_暫停0Blob 暫停
stream_filelist0從標準輸入中串流文件列表
debug_file要發送 tprintf 輸出的檔案
分類字體名稱未知字體預設 font name to be used in training
文件標題輸出文件的標題(用於 hOCR 和 PDF 輸出)
點積自動用於計算點積的函數
分類_cp_angle_pad_loose45類別 修剪器 角度 墊 鬆動
分類_cp_angle_pad_medium20修剪器角度墊中型
classify_cp_angle_pad_tight10CLass 修剪器 角度 墊片 緊
分類_cp_end_pad_loose0.5類別修剪工具端墊鬆動
分類_cp_end_pad_medium0.5修剪填充中型端板類別
分類_cp_end_pad_tight0.5類別 修剪器 端墊 緊
分類_CP_側墊鬆散2.5課程修剪器 側墊 鬆動
分類_cp_side_pad_medium1.2班級修剪器 側墊 中型
分類_cp側襯墊緊0.6類別修剪器側墊緊
分類_pp角度_pad45Proto Pruner 斜角墊
分類_pp_end_pad0.5原型修剪結束墊片
識別_pp_側面墊片2.5側墊修剪剪刀
分類最小坡度0.414214線以下的斜坡稱為水平線
分類最大斜率2.41421斜率大於的情況下,直線稱為垂直線
分類_標準_調整_中點32調整基準點...
分類_標準_調整_捲曲2調整卷曲...
分類_pico_特徵_長度0.05Pico 特徵長度
textord_underline_threshold0.5寬度所佔的比例
子區域邊緣0.5子輪廓的最小區域分數
邊緣_框區域0.875盒子孫子區域的最小部分
textord_fp_chop_snap0.5頂點與切點的最大距離
gapmap_big_gaps1.75xht 倍增器
字序_樣條_移動_分數0.02行距的四倍分數
文本排序樣條異常分數0.1外來值行距比例
文本顺序_倾斜_分位数0.5頁面傾斜的漸變島
文字順序_傾斜滯後0.02行累積的滯後偏斜
textord_linespace_iqrlimit0.2線性空間的最大四分位距/中值
textord_width_limit8行程中塊的最大寬度
文本切割寬度1.5最大寬度前剪切
文字順序擴展因子1在 expand_rows 中展開行的因子
文本字重疊_x0.375适当重叠的行距比例
textord_minxh0.25最小 x 高度的行間距分數
textord_min_linesize1.25* 初始行高的blob高度
textord_excess_blobsize1.3如果 blob 使此行變大,則新增行
文字佔用率閾值0.4鄰里的一部分
textord_underline_width2多行尺寸下劃線
textord_min_blob_height_fraction0.75最小塊高/頂部以將塊頂部包含到 xheight 統計中
textord_xheight_mode_fraction0.4最小堆高度以達到字母高度
textord_ascheight_mode_fraction0.08最小堆高度以設置為非零高度
textord_descheight_mode_fraction0.08最小堆高來達成目標高度
textord_ascx_ratio_min1.25最小字母高度/x高度
textord_ascx_ratio_max1.8最大上限/字體x高度
textord_descx_ratio_min0.25最小描述/字高
textord_descx_ratio_max0.6最大下降線/字身高度
文本順序_x高度_誤差裕度0.1接受的變體
oldbl_xhfract0.4計算中允許的部分
oldbl_dot_error_size1.26點的最大縱橫比
textord_oldbl_jumplimit0.15X 分數 用於 新分區
pitsync_joined_edge0.75大塊內部的分配用於切割
pitsync_offset_freecut_fraction0.25免費剪裁比例
textord_tabvector_vertical_gap_fraction0.5垂直文字中允許的最大垂直間隙比例計算之平均塊寬度的最小分數
字序_表格向量垂直框比例0.5宣告線垂直所需的盒子匹配比例
投影縮放比例0.2中間截斷的打鈴比率
文字順序平衡因子1非平衡字符单元的丁级
textord_wordstats_smooth_factor0.05平滑差距統計
​textord_width_smooth_factor0.1平滑寬度統計
textord_words_width_ile0.4子母塊寬度的空間配置
textord_words_maxspace4多倍字高
textord_words_default_maxspace3.5最可信的第三空間
textord_words_default_minspace0.6xheight 的分數
文本順序_詞語_最小_最小空間0.3xheight 的分數
textord_words_default_nonspace0.2xheight 的分數
textord_字詞_初始_小寫0.25最大初始叢集大小
textord_詞首大寫0.15最小初始叢集間距
textord_words_minlarge0.75所需的有效間隔比例
textord_words_pitchsd_threshold0.04音高同步閾值
textord_words_def_fixed0.016固定阈值
textord_words_def_prop0.09明確屬性的閾值
textord_pitch_rowsimilarity0.08xheight 的分數 for sameness
字詞_初始_小寫0.5最大初始叢集大小
詞首大寫0.15最小初始叢集間距
words_default_prop_nonspace0.25xheight 的分數
詞語_預設_固定_空格0.75xheight 的分數
words_default_fixed_limit0.6允許的大小變異
textord_words_definite_spread0.3非模糊間距區域
文本_順序_間隔大小_比例fp2.8最小比率 空白/非空白
文字順序_空格大小_比例2最小比率 空白/非空白
textord_fpiqr_ratio1.5音高IQR/间隙IQR 阈值
textord_max_pitch_iqr0.2音高中的 Xh 分量噪聲
textord_fp_min_width0.5合理斑點的最小寬度
textord_underline_offset0.1忽略的 x 部分
調試級別0分解級別以解決字元模糊問題
分類調試級別0分類除錯層級
分類規範方法1正規化方法
匹配器調試級別0匹配器除錯級別
matcher_debug_flags0匹配器調試標誌
學習調試級別分類0學習調試級別:
matcher_permanent_classes_min1最少永久類別數量
matcher_min_examples_for_ 原型製作3可靠配置閾值
匹配器_足夠的例子_ 用於_原型設計5即使未見模糊性,也能實現適應
分類_調整_原型_閾值230自適應過程中良好原型的門檻 0-255
分類_適應_特徵_門檻230在自適應期間選擇優良特徵的閾值0-255
分類_類別_修剪器_閾值229類集修剪器閾值 0-255
分類_類別_修剪器_倍增器15類剪枝乘數 0-255:
分類_cp_截止強度7類別 Pruner CutoffStrength:
分類_整數_匹配器_乘數10整數匹配器乘數 0-255:
dawg_debug_level0設定為1表示一般偵錯資訊,設定為2表示更多詳情,設定為3以查看所有偵錯訊息
hyphen_debug_level0連字詞的除錯級別。
停止器_小字_大小2詞典單詞的大小被視為非詞典單詞
stopper_debug_level0停止除錯級別
tessedit_truncate_wordchoice_log10列表中保留的最大字數
最大排列嘗試次數10000考慮排列時不同字符選擇的最大數量。當用戶模式被指定時,這個限制尤其有用,因為過於通用的模式會導致 DAWG 搜索探索過多的選項。
修復未切分的塊1修復未切碎的斑點
chop_debug0剖析調試
chop_split_length10000拆分長度
切割相同距離2相同距離
削減最少輪廓點6輪廓上的最小點數
chop_seam_pile_size150縫合堆中的最大縫合數量
內部角度截斷-50最小內部角度彎曲
chop_min_outline_area2000最小輪廓區域
居中裁剪最大寬度90對於高於此寬度的(較小的)切割斑塊,我們不在意切割是否接近中心。
削減_x_y_權重3X / Y 長度 重量
wordrec_debug_level0單詞識別調試級別
wordrec_max_join_chunks4最多可關聯的破碎部件數量
segsearch_debug_level0SegSearch 調試級別
segsearch_max_pain_points2000隊列中存儲的最大痛點數量
segsearch_max_futile_classifications20每段痛點分類的最大數量,未導致找到更好的用詞。
語言模型除錯等級0語言模型除錯等級
語言模型_n元序8字元 ngram 模型的最大順序
language_model_viterbi_list_   max_num_prunable10可修剪的最大數量 (那些可以削減的路徑() 是真的) entries in each viterbi list recorded in BLOB_CHOICEs
語言模型維特比列表最大大小500BLOB_CHOICEs 中記錄的 viterbi 列表的最大大小
語言模型最小組合長度3複合詞的最小長度
單詞識別顯示分段0顯示分段
tessedit_pageseg_mode6頁面分割模式:0=僅OSD,1=自動+OSD,2=僅自動,3=自動,4=欄,5=垂直塊,6=塊,7=行,8=單詞,9=單詞圓,10=字符,11=稀疏文本,12=稀疏文本+OSD,13=原始行(來自tesseract/publictypes.h中的PageSegMode枚舉的值)
tessedit_ocr_engine_mode2選擇要運行的OCR引擎(Tesseract、LSTM或兩者)。預設為加載和運行最準確的可用引擎。
pageseg_devanagari_split_strategy0在執行頁面分割時,是否對天城文檔使用頂行分割過程。
ocr_devanagari_split_strategy0在執行 OCR 時,是否將頂行分割程序用於天城文文件。
bidi_debug0雙向調試等級
應用框_調試1除錯層級
applybox_page0應用框的頁碼來源
tessedit_bigram_debug0雙字組校正的除錯輸出量。
除錯噪音移除0調試小輪廓的重新分配
每個結點的最大噪聲8最大附加到塊上的變音符數量
每字最大噪音16最多可應用於一個詞的變音符號數量
debug_x_ht_level0重新估算調試
質量_min_initial_alphas_reqd2好詞中的字母
tessedit_tess_adaption_mode39適應決策算法適用於tess
多語言_DEBUG_等級0列印多語言除錯資訊。
段落_除錯_等級0列印段落除錯資訊。
tessedit_preserve_min_wd_len2保留長於此的單詞
最佳評估分數10對於每個字元的評級中的附加長度
crunch_pot_indicators1需要多少潛在指標
crunch_leave_lc_strings4不要將有長小寫字符串的單詞壓縮
crunch_leave_uc_strings4不要將有長小寫字符串的單詞壓縮
crunch_long_repetitions3長重複的關鍵字
緊縮_調試0如上所述
修正sp_non_noise_limit1兩側有多少非噪聲的圖塊?
fixsp_done_mode1什麼構成了完成的間距
debug_fix_space_level0上下文修正空格除錯
x_ht_acceptance_tolerance8字元頂點偏離字體數據的最大允許偏差
x_ht_min_change8嘗試之前的 xht 最小變更
上標_調試0除錯層級 for sub & superscript fixer
jpg_quality85設置 JPEG 質量級別
使用者定義DPI0指定輸入圖片的DPI
最少嘗試字符數50指定 OSD 嘗試期間的最小字元數
嫌疑級別99嫌疑標記級別
可疑短詞2不要懷疑比這長的詞典詞語
tessedit_reject_mode0拒絕演算法
tessedit_image_border2附近的圖像邊緣限制Rej blbs
min_sane_x_ht_pixels8拒絕任何小於、等於或等於此的 x-ht
頁碼編輯-1-1 -> 所有頁面,否則指定頁面進行處理
tessedit_parallelize1儘可能平行運行
lstm_choice_mode2允許在 hOCR 輸出中包含替代符號選項。有效輸入值為 0、1 和 2。0 是默認值。選擇 1 時,每個時間步驟包含替代符號選項。選擇 2 時,替代符號選項是從 CTC 過程中提取,而不是來自格點。這些選項會根據每個字符進行映射。
lstm選擇迭代5設置 lstm_choice_mode 中 Beamsearch 的級聯迭代次數。請注意,lstm_choice_mode 必須設定為大於 0 的值才能產生結果。
tosp_debug_level0除錯數據
為中位數提供足夠的樣本空間3還是應該使用mean
tosp_redo_kern_limit10需要重新估算的行數樣本
tosp_few_samples40無需間隔,僅需一個大間隔以將其視作表格
tosp_short_row20沒有縫隙,僅需少量證書空間來使用證書
tosp_合理性方法1如何避免愚蠢
textord_max_noise_size7噪點的像素大小
文字順序_基線_除錯0基準除錯級別
textord_noise_sizefraction10最大值的尺寸分數
文字順序雜訊傳輸限制16正常數據塊的過渡
textord_noise_sncount1超常模塊以節省行
在適應中使用歧義0使用模棱兩可的方法來決定是否適應一個字符
允許_blob_劃分1使用可分割的塊切割
優先劃分0優先考慮 blob 分割而非裁切
classify_enable_learning1啟用自適應分類器
tess_cn_matching0字元正規化匹配
tess_bn_matching0基線正規化匹配
啟用自適應匹配分類1啟用自適應分類器
使用預適應模板進行分類0使用預適應分類器模板
分類_儲存_適應的範本0將調整後的模板保存到文件
分類_啟用_自適應_偵錯器0啟用匹配調試器
分類_非線性_標準0非線性筆劃密度正規化
禁用字元碎片1在分類器的結果中不要包含字符碎片。
分類_調試_字符_片段0調出片段訓練的圖形調試窗口
matcher_debug_separate_windows0使用兩個不同的窗口來調試匹配:一個用於樣本,一個用於功能。
分類_bln_數值模式0假設輸入是[0-9]的數字。
載入系統字典1載入系統詞語 dawg。
載入頻率字典1載入常見詞彙資料檔。
加載無歧義DAWG1加載明確的詞語 dawg。
載入標點符號_daawg1載入帶有標點符號模式的 dawg。
載入數字_da​​wg1載入號碼模式與 dawg。
載入_bigram_dawg1載入帶有特殊雙字組的 dawg。
use_only_first_uft8_step0在計算對數概率時僅使用給定字符串的第一個 UTF8 步驟。
stopper_no_acceptable_choices0使AcceptableChoice()方法始終返回false。在需要探索所有分割的情況下很有用。
segment_nonalphabetic_script0不要使用任何字母特定的技巧。對於草書或固定寬度的腳本,在traineddata配置文件中設置為true。
保存文件字詞0儲存文件字詞
合併矩陣中的片段1合併評分矩陣中的片段,並在合併後刪除它們。
wordrec_enable_assoc1聯想器啟用
強制字詞關聯0強制執行聯結器,無論 enable_assoc 為何。這適用於需要組件分組的 CJK。
啟用切割1啟用切碎
垂直切割爬行0垂直爬升
chop_new_seam_pile1使用新的seam_pile
假定固定間距字元段0在字符分割中包含固定間距啟發式算法
wordrec_skip_no_truth_words0僅針對在 BlamerBundle 中記錄了真相的單詞運行 OCR。
wordrec_debug_blamer0打印故障排除除錯訊息
wordrec_run_blamer0嘗試將錯誤歸咎於他人
保存選項1保存在裁剪和分段搜索中找到的替代路徑
language_model_ngram_on0開啟/關閉使用字元 ngram 模型
語言模型_ngram_使用_ 僅第一次_uft8_步驟0在計算對數概率時僅使用給定字符串的第一個 UTF8 步驟。
語言模型_n-gram_空間_ 分隔語言1文字由空格分隔
使用語言模型的S形確定性0使用sigmoidal分數來確定
tessedit_resegment_from_boxes0從箱文件中進行分割和標記
tessedit_resegment_from_line_boxes0將字/行框文件轉換為字元框文件
tessedit_train_from_boxes0從盒裝字符生成訓練數據
tessedit_make_boxes_from_boxes0生成更多的框架字元框
tessedit_train_line_recognizer0將輸入分解成多行,並重新映射框架(如有)
tessedit_dump_pageseg_images0導出在頁面分割過程中生成的中間影像
tessedit_do_invert1嘗試在 `LSTMRecognizeWord` 中反轉圖像
tessedit_ambigs_training0進行歧義訓練
tessedit_adaption_debug0生成並打印適應的調試資訊
applybox_learn_chars_and_char_frags_mode0同時學習字符片段(如在特殊低曝光模式下所做的那樣)以及未分割的字符。
applybox_learn_ngrams_mode0假設每個邊界框都包含 ngrams。只學習輪廓水平方向重疊的 ngrams。
tessedit_display_outwords0繪製輸出詞語
tessedit_dump_choices0轉儲字符選擇
tessedit_timing_debug0列印時間統計
tessedit_fix_fuzzy_spaces1嘗試改善模糊間隔
tessedit_unrej_any_wd0別費心考慮詞語的合理性
tessedit_fix_hyphens1壓縮雙連字符?
tessedit_enable_doc_dict1將單詞添加到文檔字典中
tessedit_debug_fonts0輸出每個字元的字體資訊
tessedit_debug_block_rejection0區塊及行統計
tessedit_enable_bigram_correction1啟用基於雙字詞典的校正。
tessedit_enable_dict_correction0根據字典啟用單字更正。
啟用去噪1移除並有條件地重新分配小輪廓,當它們混淆佈局分析時,確定變音符號與噪聲之間的區別。
tessedit_minimal_rej_pass10對第一步輸出進行最小化拒絕
tessedit_test_adaption0測試適應標準
測試點0測試點
段落_基於文本1在文字識別後進行段落檢測(更準確)
lstm_use_matrix1使用評分矩陣/光束搜尋與LSTM
tessedit_good_quality_unrej1減少良好文件的拒絕率
tessedit_use_reject_spaces1拒絕空格?
tessedit_preserve_blk_rej_perfect_wds1僅在區塊拒絕中部分拒絕的詞語
tessedit_preserve_row_rej_perfect_wds1僅在行拒絕中重新拒絕部分被拒絕的詞語
tessedit_dont_blkrej_good_wds0使用詞彙分割質量指標
tessedit_dont_rowrej_good_wds0使用詞彙分割質量指標
tessedit_row_rej_good_docs1對優質文件應用行拒絕
tessedit_reject_bad_qual_wds1拒絕所有劣質的wds
tessedit_debug_doc_rejection0頁面統計
tessedit_debug_quality_metrics0將數據輸出到調試文件
bland_unrej0無檢查的潛力釋放
unlv_tilde_CRUNCHING0標記 v.壞詞 for tilde crunch
hocr_font_info0將字體信息添加到 hocr 輸出
hocr_char_boxes0將每個字元的座標新增到 hocr 輸出
crunch_early_merge_tess_fails1在進行文字壓縮之前?
crunch_early_convert_bad_unlv_chs0提早取出 ~^?
搗碎_糟糕_垃圾1如上所述
緊縮_離開_確認_字符串1不要觸碰敏感字串
crunch_accept_ok1在 okstring 中使用 acceptability
壓縮_離開_接受_字符串0不要把合理的字符串硬壓縮
crunch_include_numerals0試驗初期數據
tessedit_prefer_joined_punct0獎勵標點符號加入
tessedit_write_block_separators0在輸出中寫入區塊分隔符
tessedit_write_rep_codes0寫重複字符代碼
tessedit_write_unlv0撰寫.unlv輸出檔案
tessedit_create_txt0寫.txt輸出檔案
tessedit_create_hocr0撰寫 .html hOCR 輸出文件
tessedit_create_alto0撰寫 .xml ALTO 檔案
tessedit_create_lstmbox0為 LSTM 訓練編寫 .box 文件
tessedit_create_tsv0編寫.tsv輸出文件
tessedit_create_wordstrbox0撰寫 WordStr 格式 .box 輸出文件
tessedit_create_pdf0編寫 .pdf 輸出檔案
僅文本_PDF0僅創建一個不可見文本層的 PDF
懷疑_約束_1Il0UNLV 保留 1Il 字元被拒
tessedit_minimal_rejection0只拒絕 tess 失敗
tessedit_zero_rejection0請勿拒絕任何事物
逐字識別0使輸出每個WERD有且僅有一個單詞
tessedit_zero_kelvin_rejection0請勿拒絕任何事物 AT ALL
tessedit_rejection_debug0適應調試
tessedit_flip_0O1上下文 0O O0 翻轉
rej_trust_doc_dawg0使用 DOC dawg 在 11l conf. 檢測器
rej_1Il_use_dict_word0使用 dictword 測試
rej_1Il_trust_permuter_type1不要重複檢查
rej_use_tess_accepted1個別拒絕控制
rej_use_tess_blanks1個別拒絕控制
rej_use_good_perm1個別拒絕控制
rej_use_sensible_wd0延伸排列檢查
rej_alphas_in_number_perm0延伸排列檢查
tessedit_create_boxfile0輸出帶有框的文字
tessedit_write_images0從 IPE 擷取影像
互動顯示模式0互動運行?
tessedit_override_permuter1根據 dict_word
使用tessedit_use_primary_params_model0在多語言模式下,使用主要語言的參數模型
textord_tabfind_show_vlines0調試行檢測
textord_use_cjk_fp_model0使用 CJK 固定間距模型
允許詳盡特效0允許特徵提取器查看原始大綱
tessedit_init_config_only0僅使用配置文件初始化。如果實例不會用於OCR,只是用於佈局分析,這將會很有用。
textord_equation_detect0打開方程式偵測器
textord_tabfind_vertical_text1啟用垂直檢測
textord_tabfind_force_vertical_text0強制使用縱向文字頁模式
保留_單詞_間_空格0保留多個單詞間的空格
應用音樂遮罩頁面段落1檢測五線譜並移除相交的組件
文本訂單_單一高度模式0由於字體沒有 xheight,因此請使用單一模式
tosp_old_to_method0空間統計使用預切割嗎?
tosp_old_to_constrain_sp_kn0約束 old_to_method 的內部和外部單詞間距的相對值。
只使用屬性列1使用固定單元行的區塊統計?
tosp_force_wordbreak_on_punct0在無空格分隔語言中強制在標點符號處換行,以分段長行。
tosp_use_pre_chopping0空間統計使用預切割嗎?
舊輸入檔案轉移到錯誤修復0修復舊代碼中的疑似錯誤
tosp_block_use_cert_spaces1僅限填寫明顯的空格
使用證書空格記號的行1僅限填寫明顯的空格
tosp_narrow_blobs_not_cert1僅限填寫明顯的空格
使用證書空格記號的行11僅限填寫明顯的空格
tosp_recovery_isolated_row_stats1當認證空間不足時,使用單行。
tosp_only_small_gaps_for_kern0更好的猜測
tosp_all_flips_fuzzy0將任何翻轉傳送至上下文?
tosp_fuzzy_limit_all1不要將 kn->sp 模糊限制限制於表格上
tosp_stats_use_xht_gaps1在 xht 間隙內使用 wd 斷裂
tosp_use_xht_gaps1在 xht 間隙內使用 wd 斷裂
僅使用 XHT 間隙0僅在 wd 斷點內使用 xht 間隙
tosp_rule_9_test_punct0請勿將標點符號旁邊的字改成空格。
tosp_flip_fuzz_kn_to_sp1預設翻轉
tosp_flip_fuzz_sp_to_kn1預設翻轉
tosp_improve_thresh0啟用改進啟發式算法
textord_no_rejects0不要移除噪點斑點
顯示文字區塊0顯示未排序的blob
顯示文字盒0顯示未排序的blob
textord_noise_rejwords1拒絕噪音詞
textord_noise_rejrows1拒絕類似噪音的行
文本秩序噪点调试0調試行垃圾檢測器
分類_學習_調試_str類別 str 到 debug 學習
用戶單詞檔案使用者提供的檔名。
用戶字詞後綴位於 tessdata 的使用者提供的字詞後綴。
使用者模式檔案使用者提供的模式檔名。
使用者模式_後綴位於tessdata中的使用者提供模式後綴。
output_ambig_words_file字典中發現歧義的輸出檔案
word_to_debug應將哪個單詞的調試信息輸出到標準輸出(stdout)
tessedit_char_blacklist不識別的字符黑名單
tessedit_char_whitelist允許識別字符列表
tessedit_char_unblacklist要覆蓋的 tessedit_char_blacklist 字符列表
tessedit_write_params_to_file將所有參數寫入指定的檔案。
applybox_exposure_pattern.exp曝光值遵循圖像檔案名稱中的此模式。圖像檔案的名稱應為[lang].[fontname].exp [num].tif
chs_leading_punct ('`"領先標點
chs_尾隨的_punct1).,;:?!第一尾隨標點符號
chs_trailing_punct2 )'`"第二個尾隨標點符號
大綱_奇數%非標準數量的大綱
outlines_2 ij!?%":;非標準數量的大綱
數字標點.,數字內應有標點
未識別的字元未識別的斑點輸出字元
ok_repeated_ch_non_alphanum_wds-?*=允許NN取消拒絕
衝突設置_I_l_1Il1 []Il1 衝突集
文件類型.tif文件名扩展名
tessedit_load_sublangs其他需加載的語言列表
頁面分隔符頁分隔符(默認為換頁控制字符)
字符_规范_范围分类0.2字元正規化範圍 ...
最大評分比率分類1.5分類器評級之間的否決比率
分類最大確定性邊緣5.5否決分類器確定性之間的差異
匹配器良好阈值0.125良好匹配 (0-1)
匹配器_可靠_自適應_結果0精彩比賽 (0-1)
匹配器完美閾值0.02完美匹配 (0-1)
匹配器_不匹配_填充0.15不匹配填充 (0-1)
匹配器評分邊距0.1新範本邊距 (0-1)
匹配器平均噪點大小12平均噪音區塊長度
匹配器_聚類_最大角度變化0.015原型聚類的最大角度增量
分類_不合適_垃圾_懲罰0當非字母數字符號在其預期的文本行位置之外垂直出現時應用的懲罰
評分尺度1.5評級縮放因子
確定性量表20確定性縮放因子
tessedit_class_miss_scale0.00390625特徵未使用的縮放係數
分類_調整_修剪_因數2.5將適應不良的結果修剪至比最佳結果差很多的程度
分類_調整_修剪_閾值-1Threshold at which 分類_調整_修剪_因數 starts
將以下內容翻譯成中文(繁體): classify_character_fragments_ garbage_certainty_threshold-3排除訓練和適應中不看起來像完整字符的片段
最大斑點尺寸0.3最大大斑點尺寸
斑點評分懲罰10將最差評分增加的噪音罰款
xheight_penalty_subscripts0.125如果單詞中有下標或上標,則會加上罰分(0.1 = 10%),但除此之外可以接受。
xheight_penalty_inconsistent0.25如果 xheight 不一致,則添加分數懲罰 (0.1 = 10%)。
段落懲罰詞典頻繁詞1單字符合度的分數乘數,這些單字在大小寫正確且在給定語言中頻繁出現(數值越低越好)。
段落處理費詞典案子正常1.1字母大小寫匹配良好的字詞得分乘數(越低越好)。
segment_penalty_dict_case_bad1.3125預設的詞語匹配分數乘數,可能有大小寫問題(越低越好)。
segment_penalty_dict_nonword1.25字形片段分割分數乘數不匹配詞典單詞(越低越好)。
段落懲罰垃圾1.5對於不在字典中且一般看起來像垃圾的大小寫不正確的字符串的分數乘數(越低越好)。
確定性量表20確定性縮放因子
停止器_nondict_確定性_基礎-2.5非詞彙字詞的確定性閾值
確定性拒絕偏移第二階段停止器1拒絕確定性偏移
停滯_確定性_每_字符-0.5確定為每個上面的小單詞大小添加字典字符。
停止允許字符不良3單詞允許的最大確定性變異(以 sigma 計)
doc_dict_pending_threshold0使用待處理字典的最壞確定性
文件詞典確定性閾值-2.25可以插入文件詞典的單詞的最差確定性
tessedit_certainty_threshold-2.25良好的 Blob 限制
chop_split_dist_knob0.5分離長度調整
切重疊旋鈕0.9分割重疊調整
切中心旋鈕0.15調整中心分割
尖銳度調節旋鈕0.06分割銳度調整
切寬變更旋鈕5寬度變更調整
chop_ok_split100好的拆分限制
chop_good_split50良好的分割限制
segsearch_max_char_wh_ratio2最大字元寬高比率