在 C&num 中设置 Tesseract 配置变量;

This article was translated from English: Does it need improvement?
Translated
View the article in English

通过 IronOcr Tesseract 界面,可以完全控制 Tesseract 配置变量。

IronOcr.TesseractConfiguration 类

Tesseract 配置代码示例

using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
using IronOcr;

var Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.ReadBarCodes = false;
Ocr.Configuration.BlackListCharacters = "`ë
^";
Ocr.Configuration.RenderSearchablePdf = true;
Ocr.Configuration.RenderHocr = true;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
Ocr.Configuration.TesseractVariables ["tessedit_parallelize"] = false;

using (var Input = new OcrInput(@"images\image.png"))
{
 var Result = Ocr.Read(Input);
 Console.WriteLine(Result.Text);
} 
Imports IronOcr

Private Ocr = New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.ReadBarCodes = False
Ocr.Configuration.BlackListCharacters = "`ë ^"
Ocr.Configuration.RenderSearchablePdf = True
Ocr.Configuration.RenderHocr = True
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
Ocr.Configuration.TesseractVariables ("tessedit_parallelize") = False

Using Input = New OcrInput("images\image.png")
 Dim Result = Ocr.Read(Input)
 Console.WriteLine(Result.Text)
End Using
VB   C#

所有 Tesseract 配置变量列表

可以使用 IronTesseract.Configuration.TesseractVariables 设置这些变量。 ["键"] = value;

魔方配置变量默认值意义
分级次数3等级修剪器数量
textord_debug_tabfind0调试选项卡查找
textord_debug_bugs0在选项卡查找中打开与错误相关的输出
textord_testregion_left-1调试报告矩形的左边缘
textord_testregion_top-1调试报告矩形的上边缘
textord_testregion_right2147483647调试矩形的右边缘
textord_testregion_bottom2147483647调试矩形的底边
textord_tabfind_show_partitions0显示分区边界,如果 >1 则等待
devanagari_split_debuglevel0拆分 Shiro-rekha 进程的调试级别。
每个轮廓的最大子轮廓边数10字符轮廓内子字符的最大数量
最大子层边缘数5字符轮廓内嵌套子代的最大层数
每个子孙边数10卡盘轮廓的重要比率
子边数限制45Blob 中允许的最大孔数
最小无孔边缘12框内潜在字符的最小像素
边缘比例40可接受的儿童轮廓的最大镜头数量/面积
textord_fp_chop_error2斩波器的最大允许弯曲度
textord_tabfind_show_images0显示图像块
textord_skewsmooth_offset4平滑系数
textord_skewsmooth_offset21平滑系数
textord_test_x-2147483647测试点协调
textord_test_y-2147483647测试点协调
textord_min_blobs_in_row4梯度计算前的最小值
textord_spline_minblobs8每个样条线段中的最小值
文本ord_spline_medianwin6样条分割的窗口大小
textord_max_blob_overlaps4一个大圆球可以重叠的最大圆球个数
textord_min_xheight10最小可信像素 x 高度
文本ord_lms_line_trials12要做的线路配合次数
oldbl_holed_losscount10使用备用线路前的最大损失
pitsync_linear_version6使用新的快速算法
pitsync_fake_depth1最大预付假货生成量
textord_tabfind_show_strokewidths0显示笔画宽度
textord_dotmatrix_gap3破碎像素间距的最大像素间距
textord_debug_block0块进行调试
textord_pitch_range2间距最大范围测试
文本 word_veto_power5否决票所需的行数
方程检测保存比对图像0保存输入的双图像
方程检测保存图像0保存特殊字符图像
方程检测保存种子图像0保存种子图像
方程检测保存合并图像0保存合并后的图像
多重调试0调试旧聚合物
更佳的多边形物体1更准确地了解各种事物
wordrec_display_splits0显示分割
textord_debug_printable0打印调试窗口
文本记录空间大小可变0如果为 "true",即使字符具有固定间距,也会假定字分隔符空格具有可变宽度。
textord_tabfind_show_initial_partitions0显示分区边界
textord_tabfind_show_reject_blobs0显示被当作噪音剔除的小块
textord_tabfind_show_columns0显示列边界
textord_tabfind_show_blocks0显示最终区块边界
textord_tabfind_find_tables1运行表检测
devanagari_split_debugimage0是否为 split shiro-rekha 进程创建调试映像。
textord_show_fixed_cuts0绘制固定间距单元边界
边缘使用新外线复杂度0使用新的大纲复杂性模块
边缘调试0打开该模块的调试
固定边0删除 char-like 子代的方形父代
差距图调试0说说哪些区块有表格
gapmap_use_ends0在行首和行尾使用大空格
无隔离量子间隙图0确保间隙不小于 2 夸脱宽
重型文字记录器0大力消除噪音
textord_show_initial_rows0显示行累积
textord_show_parallel_rows0显示页面相关行
textord_show_expanded_rows0展开后显示行
textord_show_final_rows0显示最终拟合后的行
textord_show_final_blobs0预ass 后显示 blob 边界
textord_test_landscape0测试指陆地/港口
textord_parallel_baselines1强制平行基线
直线基线0强制直线基线
旧基线1使用旧的基线算法
textord_old_xheight0使用旧的 xheight 算法
textord_fix_xheight_bug1使用样条基线
文本记录修正错误1防止多重基线
textord_debug_xheights0测试 x 高度算法
textord_biased_skewcalc1随线路长度变化的偏斜估计值
textord_interpolating_skew1跨间隙插值
textord_new_initial_xheight1使用测试 x 高度机制
textord_debug_blob0打印测试数据块信息
textord_really_old_xheight0使用原来的 wiseowl xheight
textord_oldbl_debug0调试旧基线生成
textord_debug_baselines0调试基线生成
textord_oldbl_paradef1使用 para 默认机制
textord_oldbl_split_splines1剖分式阶梯花键
textord_oldbl_merge_parts1合并可疑分区
oldbl_corrfix1改善高度的相关性
oldbl_xhfix0修复 xheights 模式阈值的错误
文字记录模式0为 ocropus 制作基线
textord_tabfind_only_strokewidths0只运行笔划宽度
textord_tabfind_show_initialtabs0显示选项卡候选人
textord_tabfind_show_finaltabs0显示选项卡向量
textord_show_tables0显示表格区域
textord_tablefind_show_mark0详细的调试表标记步骤
textord_tablefind_show_stats0显示查找表格时使用的页面统计信息
textord_tablefind_recognize_tables0启用表格识别器进行表格布局和筛选。
textord_all_prop0所有文档均为比例文本
textord_debug_pitch_test0固定螺距测试调试
textord_disable_pitch_test0关闭 dp 固定螺距算法
textord_fast_pitch_test0做更快的俯仰算法
textord_debug_pitch_metric0写满公制的东西
textord_show_row_cuts0绘制行级切割图
textord_show_page_cuts0绘制页面级裁剪
文本字距0使用正确的固定/螺旋桨答案
textord_blockndoc_fixed0尝试整个文档/区块的固定间距
textord_show_initial_words0显示单独的单词
textord_show_new_words0显示单独的单词
textord_show_fixed_words0显示强制固定音高单词
textord_blocksall_fixed0对道具块的抱怨
textord_blocksall_prop0对固定螺距区块的抱怨
textord_blocksall_testing0呻吟时丢弃统计数据
文本记录测试模式0进行电流测试
大词音调0大词量表得分
textord_restore_underlines1删除下划线并放回原处
textord_fp_chopping1进行固定螺距切削
textord_force_make_prop_words0强制在所有行上按比例分词
textord_chopper_test0菜刀正在接受测试。
wordrec_display_all_blobs0显示 Blobs
wordrec_blob_pause0Blob 暂停
流文件列表0从 stdin 流式传输文件列表
调试文件将 tprintf 输出发送到的文件
字体名称分类未知字体默认值 font name to be used in training
文件标题输出文件标题(用于 hOCR 和 PDF 输出)
点产品自动用于计算点积的函数
分类_CP_角度_垫子_松动45类修剪器角垫松动
中型角垫分类20中型修枝剪角垫
分类_CP_角度_垫子_紧固10CLass 剪枝器角垫紧固件
分类_cp_end_pad_loose0.5类修枝剪端垫松动
分类_cp_end_pad_medium0.5中型修枝剪末端垫
分类_cp_end_pad_tight0.5类修枝剪末端垫紧
分类_cp_side_pad_loose2.5类修枝剪侧垫松动
中型分类1.2中型修枝剪侧垫
分类_cp_side_pad_tight0.6类修剪器侧垫紧
角垫分类45Proto 剪枝器角垫
分类_pp_end_pad0.5Proto Prune 端垫
对 pp_side_pad 进行分类2.5Proto 剪枝刀侧垫
最小斜率分类0.414214低于该斜率的直线称为水平线
最大坡度分类2.41421垂直线的斜率
中点常模分类32规范调整中点 ...
分类_norm_adj_curl2通常情况下,调整卷曲...
分类特征长度0.05Pico 功能长度
下划线阈值0.5占用宽度的百分比
边缘_儿童区0.5儿童轮廓的最小面积分数
边框0.875箱体的子代最小面积分数
textord_fp_chop_snap0.5切点与顶点的最大距离
大差距地图1.75xht 倍增器
文本记录平移分数0.02四边形行距的分数
文本记录分割离群分数0.1离群值的行距分数
textord_skew_ile0.5页面倾斜的梯度
textord_skew_lag0.02行累积偏斜滞后
textord_linespace_iqrlimit0.2线路空间的最大 iqr/中值
文本字宽限制8行的最大宽度
textord_chop_width1.5切割前最大宽度
文本记录扩展因子1在 expand_rows 中按系数扩展行
textord_overlap_x0.375良好重叠的行间距比例
textord_minxh0.25最小 x 高度的行距分数
textord_min_linesize1.25* 初始行大小的 blob 高度
textord_excess_blobsize1.3如果 Blob 使行列变得如此之大,则新建一行
文本记录占用阈值0.4邻里比例
下划线宽度2下划线的行尺寸倍数
textord_min_blob_height_fraction0.75最小 blob 高度/顶部,以便将 blob 顶部纳入 xheight 统计中
textord_xheight_mode_fraction0.4最小堆高 x 高度
textord_ascheight_mode_fraction0.08最小堆高
textord_descheight_mode_fraction0.08最小堆高,以便降低高度
textord_ascx_ratio_min1.25最小上限/x 高度
textord_ascx_ratio_max1.8最大上限/高度
textord_descx_ratio_min0.25最小描述/高度
textord_descx_ratio_max0.6最大描述/高度
textord_xheight_error_margin0.1接受变化
oldbl_xhfract0.4计算中允许的 est 分数
oldbl_dot_error_size1.26点的最大长宽比
textord_oldbl_jumplimit0.15新分区的 X 分数
pitsync_joined_edge0.75分布在大圆球内,以便切碎
pitsync_offset_freecut_fraction0.25自由切割的切割比例
textord_tabvector_vertical_gap_fraction0.5竖排文字中的垂直间隙所允许的平均 Blob 宽度的最大分数
textord_tabvector_vertical_box_ratio0.5宣布一条直线垂直所需的火柴盒火柴数
textord_projection_scale0.2中段剪切的定型率
平衡因子1不平衡炭化电池的定值率
textord_wordstats_smooth_factor0.05平滑差距统计
textord_width_smooth_factor0.1平滑宽度统计
textord_words_width_ile0.4空间 est 的球状体宽度列表
textord_words_maxspace4x 高度的倍数
textord_words_default_maxspace3.5最可信的第三空间
textord_words_default_minspace0.6xheight 的分数
textord_words_min_minspace0.3xheight 的分数
textord_words_default_nonspace(默认空格0.2xheight 的分数
textord_words_initial_lower0.25最大初始集群规模
textord_词首上部0.15最小初始群集间距
textord_words_minlarge0.75所需的有效间隙比例
textord_words_pitchsd_threshold0.04音高同步阈值
textord_words_def_fixed0.016明确固定的阈值
textord_words_def_prop0.09确定道具的阈值
textord_pitch_rowsimilarity0.08xheight 的分数 for sameness
words_initial_lower0.5最大初始集群规模
词首上部0.15最小初始群集间距
words_default_prop_nonspace0.25xheight 的分数
words_default_fixed_space0.75xheight 的分数
默认字数限制0.6允许的尺寸差异
textord_words_definite_spread(单词定义扩展0.3非模糊间隔区域
textord_spacesize_ratiofp2.8空间/非空间最小比率
textord_spacesize_ratioprop2空间/非空间最小比率
textord_fpiqr_ratio1.5间距 IQR/间隙 IQR 阈值
textord_max_pitch_iqr0.2Xh 分辨率噪声
textord_fp_min_width0.5像样球体的最小宽度
textord_underline_offset0.1忽略 x 的分数
调试级别0单字符模糊调试级别
分类调试级别0划分调试级别
正态分类方法1归一化方法 ...
matcher_debug_level0匹配器调试级别
matcher_debug_flags0匹配器调试标志
分类学习调试级别0学习调试级别:
matcher_permanent_classes_min1最少常设班级数
matcher_min_examples_for_ 原型开发3可靠配置阈值
matcher_sufficient_examples_ 用于原型设计5即使未发现歧义,也能进行调整
分类适应阈值230自适应期间良好原态的阈值 0-255
分类适应特征阈值230自适应期间良好特征的阈值 0-255
分类阈值229等级修剪器阈值 0-255
分类分枝倍增器15等级修剪器乘数 0-255:
强度分类7类剪枝剪强度:
整数调制器倍增器分类10整数匹配器乘法器 0-255:
dawg_debug_level0设置为 1 可查看一般调试信息,设置为 2 可查看更多细节,设置为 3 可查看所有调试信息
hyphen_debug_level0连字符的调试级别。
小字体大小2作为非独占词处理的独占词大小
stopper_debug_level0停止器调试级别
tessedit_truncate_wordchoice_log10列表中保留的最大字数
max_permuter_attempts10000在排列过程中要考虑的不同字符选择的最大数量。这个限制在指定用户模式时特别有用,因为过于通用的模式会导致 dawg 搜索探索过多的选项。
修复被撞坏的球体1修复未切碎的 Blobs
chop_debug0斩波调试
chop_split_length10000分割长度
相同距离2相同距离
chop_min_outline_points6大纲上的最小点数
切缝堆叠尺寸150接缝堆中的最大接缝数
内切角-50最小内角弯曲
chop_min_outline_area2000最小轮廓面积
以切线为中心的最大宽度90较小碎块的宽度,在此宽度之上,我们不考虑碎块是否靠近中心。
chop_x_y_weight3X / Y 长度 重量
wordrec_debug_level0wordrec 的调试级别
wordrec_max_join_chunks4关联的最大破碎件数
segsearch_debug_level0SegSearch 调试级别
最大搜索痛苦点数2000队列中存储的痛点的最大数量
最大搜索有用分类20每个大块中没有找到更好词语的痛点分类的最大数量。
语言模型调试级别0语言模型调试级别
语言模型语序8字符语法模型的最大阶数
语言模型维特比列表 max_num_prunable10可修剪的最大数量 (PrunablePath() 为真) entries in each viterbi list recorded in BLOB_CHOICEs
语言模型维特比 list_max_size500BLOB_CHOICE 中记录的 viterbi 列表的最大大小
语言模型最小复合长度3复合词的最小长度
wordrec_display_segmentations0显示细分
tessedit_pageseg_mode6分页模式:0=osd only, 1=auto+osd, 2=auto_only, 3=auto, 4=column, 5=block_vert, 6=block, 7=line, 8=word, 9=word_circle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (取自 tesseract/publictypes.h 中 PageSegMode 枚举的值)
tessedit_ocr_engine_mode2要运行的 OCR 引擎(Tesseract、LSTM 或两者)。默认加载并运行最精确的可用引擎。
pageseg_devanagari_split_strategy0在进行页面分割时,是否对 Devanagari 文档使用顶行分割流程。
OCR_DEVANAGARI_Split_Strategy0在执行 OCR 时,是否对 Devanagari 文档使用顶行分割程序。
调试0BiDi 调试级别
applybox_debug1调试级别
applybox_page0应用方框的页码
tessedit_bigram_debug0大字符校正的调试输出量。
删除调试噪音0调试小轮廓的重新分配
噪声8应用于 Blob 的最大变音符数
噪音干扰词16适用于单词的最大变音符数
debug_x_ht_level0重新估计调试
quality_min_initial_alphas_reqd2好字当头
tessedit_tess_adaption_mode39苔丝的适应性决策算法
multilang_debug_level0打印 multilang 调试信息。
段落调试级别0打印段落调试信息。
tessedit_preserve_min_wd_len2只保存比这更长的纬度
评分上限10按每 ch 额定值计算的长度
锅底紧缩指标1需要多少潜在指标
crunch_leave_lc_strings4不要压缩小写字符串较长的单词
crunch_leave_uc_strings4不要压缩小写字符串较长的单词
长时间重复3长时间重复的单词
crunch_debug0如其所言
fixsp_non_noise_limit1两侧有多少个无噪音蓝牙?
fixsp_done_mode1间距的构成
调试修复空间级别0上下文固定空间调试
x_ht_acceptance_tolerance8字体数据外 blob 顶部的最大允许偏差
x_ht_min_change8在实际尝试之前,xht 的最小变化量
上标调试0调试级别 for sub & superscript fixer
jpg_quality85设置 JPEG 质量级别
用户定义的 dpi0指定输入图像的 DPI
最小尝试字符数50指定 OSD 期间尝试的最小字符数
suspect_level99可疑标记水平
可疑短语2不要怀疑口述密码比这更长
剔除模式0剔除算法
图片边框2图像边缘限值附近的 Rej Blbs
最小值_sane_x_ht_pixels8拒绝任何 x-ht lt 或 eq
页码-1-1 -> 所有页面,否则处理特定页面
并行化1尽可能并行运行
lstm_choice_mode2允许在 hOCR 输出中包含备选符号选项。有效输入值为 0、1 和 2。0 为默认值。输入 1 时,将包含每个时间步的备选符号选择。输入 2 时,将从 CTC 进程而非网格中提取备选符号选项。选择按字符映射。
lstm_choice_iterations5设置 lstm_choice_mode 中 Beamsearch 的级联迭代次数。请注意,lstm_choice_mode 的值必须大于 0 才能产生结果。
tosp_debug_level0调试数据
TSP_enough_space_samples_for_median3还是应该使用平均值
tosp_redo_kern_limit10重新估计行所需样本数
tosp_few_samples40需要的间隙数,有 1 个大间隙可作为表格处理
短行20无间隙,使用证书时需要的证书空格很少
方法1如何避免愚蠢
textord_max_noise_size7噪音的像素大小
textord_baseline_debug0基准调试级别
textord_noise_sizefraction10最大值的尺寸比例
噪声限值16正常球体的过渡
文本记录噪音计数1超级标准 Blobs 保存行
使用自适应ambigs0使用 ambigs 来决定是否适应角色
允许球体分割1使用可分割的小块切碎
优先分区0分块优先于切块
分类_启用_学习1启用自适应分类器
tess_cn_matching0特征归一化匹配
tess_bn_matching0基准归一化匹配
分类_启用自适应捕获器1启用自适应分类器
分类使用预适配模板0使用预适应分类器模板
分类保存改编模板0将改编过的模板保存到文件中
分类启用自适应调试器0启用匹配调试器
非线性正态分类0非线性中风密度归一化
禁用字符碎片1分类结果中不包含字符片段
字符碎片分类0调出图形调试窗口进行片段训练
matcher_debug_separate_windows0使用两个不同的窗口进行匹配调试:一个用于原型,另一个用于功能。
分类数值模式0假设输入为数字 [0-9]。
加载系统1装载系统单词
加载频率1加载频繁的单词
load_unambig_dawg1加载毫不含糊的单词 "Dawg"。
load_punc_dawg1用标点符号模式加载 dawg。
装载数量1用数字模式装载小家伙
加载大图1给 dawg 装上特殊的单词大法。
仅使用第一个步骤0计算对数概率时,只使用给定字符串的第一个 UTF8 阶。
停止不接受的选择0使 AcceptableChoice() 始终返回 false。在需要探索所有分段时非常有用
黑体脚本分段0不要使用任何针对字母的技巧。在 traineddata 配置文件中将草书或固有固定间距的脚本设为 true
保存文档字词0保存文件字数
合并矩阵中的碎片1合并评级矩阵中的片段,并在合并后删除它们
wordrec_enable_assoc1启用关联器
force_word_assoc0强制关联程序运行,无论 enable_assoc 为何。这用于需要对组件进行分组的中日韩语言。
chop_enable1启用斩波器
垂直匍匐0垂直蠕变
切削新缝合线1使用新的 seam_pile
假定固定间距字符段0在字符分段中加入固定音高启发法
wordrec_skip_no_truth_words(忽略不实词语0只对 BlamerBundle 中已记录真相的单词运行 OCR
调试器0打印 Blamer 调试信息
wordrec_run_blamer0尝试将错误归咎于他人
保存选项1保存在切分和分割搜索过程中发现的备选路径
语言模型负词表0打开/关闭字符语法模型的使用
语言模型的语法使用 only_first_uft8_step0计算对数概率时,只使用给定字符串的第一个 UTF8 阶。
语言模型语法空间 语言1单词用空格分隔
语言模型使用西格码确定性0使用西格玛评分来确定性
从方框重新分段0从盒式文件中提取分段和标签
tessedit_resegment_from_line_boxes0将单词/行方框文件转换为字符方框文件
tessedit_train_from_boxes0从方框字符中生成训练数据
tessedit_make_boxes_from_boxes0从方框字符中生成更多方框
tessedit_train_line_recognizer0将输入内容分行,并重新映射方框(如果有的话
tessedit_dump_pageseg_images0转存页面分割过程中生成的中间图像
tessedit_doo_invert1尝试在 `LSTMRecognizeWord` 中反转图像
tessedit_ambigs_training0进行模糊培训
tessedit_adaption_debug0生成并打印适应性调试信息
applybox_learn_chars_and_char_frags_mode0既可学习字符片段(如在特殊的低曝光模式下),也可学习未片段字符。
applybox_learn_ngrams_mode0假设每个边界框都包含 ngrams。只学习其轮廓在水平方向上重叠的 ngram。
tessedit_display_outwords0绘制输出字
tessedit_dump_choices0转存字符选择
tessedit_timing_debug0打印计时统计
tessedit_fix_fuzzy_spaces1尝试改善模糊空间
tessedit_unrej_any_wd0不要纠结于词语的合理性
修正hyphens1压缩双连字符?
tessedit_enable_doc_dict1在文档字典中添加单词
tessedit_debug_fonts0按字符输出字体信息
tessedit_debug_block_rejection0块和行统计
tessedit_enable_bigram_correction1启用基于单词大词词典的校正功能。
tessedit_enable_dict_correction0启用基于词典的单词修正功能。
启用噪音消除功能1当小轮廓混淆布局分析时,可将其移除并有条件地重新分配,确定变音与噪声
tessedit_minimal_rej_pass10对通过 1 的输出进行最小限度的剔除
tessedit_test_adaption0测试适应标准
test_pt0测试点
基于文本的段落1在文本识别后运行段落检测(更准确)
lstm_use_matrix1使用 lstm 进行评级矩阵/光束搜索
质量上乘的无缝钢管1减少对优秀文档的拒绝
使用剔除空间1拒绝空格?
tessedit_preserve_blk_rej_perfect_wds1在区块剔除中只剔除部分被剔除的字词
tessedit_preserve_row_rej_perfect_wds1在拒绝行中只拒绝部分被拒绝的词语
tessedit_dont_blkrej_good_wds0使用分词质量指标
tessedit_dont_rowrej_good_wds0使用分词质量指标
tessedit_row_rej_good_docs1对优秀文档实行行拒绝
tessedit_reject_bad_qual_wds1剔除所有质量差的数据包
tessedit_debug_doc_rejection0页面统计
tessedit_debug_quality_metrics0向调试文件输出数据
Bland_unrej0无检查的无潜力
unlv_tilde_crunching(压缩)0标记 V.不好的字,表示 tilde crunch
字体信息0为 hocr 输出添加字体信息
字符框0为 hocr 输出添加每个字符的坐标
Crunch_early_merge_tess_fails1在词语紧缩之前?
crunch_early_convert_bad_unlv_chs0提前取出 ~^?
嘎吱嘎吱的可怕垃圾1如其所言
crunch_leave_ok_strings1不要触碰理智的琴弦
紧缩_接受_确定1在 okstring 中使用可接受性
crunch_leave_accept_strings0不要拧断理智的琴弦
紧缩包含数值0小提琴阿尔法数字
tessedit_prefer_joined_punct0奖励加入标点符号
tessedit_write_block_separators0在输出中写入块分隔符
tessedit_write_rep_codes0编写重复字符代码
tessedit_write_unlv0写入 .unlv 输出文件
tessedit_create_txt0写入 .txt 输出文件
"创造 "系统0编写 .html hOCR 输出文件
创建阿尔托0编写 .xml ALTO 文件
tessedit_create_lstmbox0为 LSTM 训练编写 .box 文件
tessedit_create_tsv0写入 .tsv 输出文件
tessedit_create_wordstrbox0写入 WordStr 格式的 .box 输出文件
tessedit_create_pdf0编写 .pdf 输出文件
纯文字 PDF0只创建一个不可见文本层的 PDF
疑似应力_1Il0UNLV 保留 1Il 字符被拒绝
最低拒绝率0只拒绝苔丝的失败
零拒绝0不要拒绝任何东西
word_for_word(逐字翻译0使每个 WERD 的输出精确到一个字
tessedit_zero_kelvin_rejection0不要拒绝任何东西 AT ALL
tessedit_rejection_debug0适应性调试
tessedit_flip_0O1上下文 0O O0 翻转
信任文档0在 11l confector 中使用 DOC dawg。
rej_1Il_use_dict_word0使用听写测试
rej_1Il_trust_permuter_type1不要重复检查
rej_use_tess_accepted1个人拒绝控制
rej_use_tess_blanks1个人拒绝控制
使用良好参数1个人拒绝控制
使用合情合理的数据包0扩展许可证检查
rej_alphas_in_number_perm(按次数计算的失语症患者人数0扩展许可证检查
tessedit_create_boxfile0输出带方框的文本
tessedit_write_images0从 IPE 捕捉图像
交互式显示模式0交互式运行?
超限器1根据 dict_word
tessedit_use_primary_params_model0在多语言模式下,使用主要语言的参数模型
textord_tabfind_show_vlines0查找调试线
textord_use_cjk_fp_model0使用中日韩固定音高模式
poly_allow_detailed_fx0允许特征提取器查看原始轮廓
tessedit_init_config_only0仅使用配置文件初始化。如果该实例不用于 OCR,而仅用于布局分析,则非常有用。
检测公式0打开方程检测器
textord_tabfind_vertical_text1启用垂直检测
textord_tabfind_force_vertical_text0强制使用垂直文本页面模式
保留词间空格0保留多个字间空格
pageseg_apply_music_mask1检测五线谱并移除相交部分
textord_single_height_mode0脚本没有 x 高度,因此使用单一模式
tosp_old_too_method0空间统计使用预切碎?
到sp_old_to_constrain_sp_kn0限制 old_too_method 的词间间隙和词内间隙的相对值。
tosp_only_use_prop_rows1使用固定间距行的块统计?
tosp_force_wordbreak_on_punct0在标点符号上强制分词,以分隔非空格分隔语言中的长行
tosp_use_pre_chopping0空间统计使用预切碎?
tosp_old_too_bug_fix0修复旧代码中的疑似错误
tosp_block_use_cert_spaces1只统计明显的空格
tosp_row_use_cert_spaces1只统计明显的空格
tsp_narrow_blobs_not_cert1只统计明显的空格
tosp_row_use_cert_spaces11只统计明显的空格
恢复隔离行统计1当证书空间不足时,可单独使用行
仅为内核提供小间隙0更好的猜测
全部翻转_模糊0通过 ANY 翻转到上下文?
tosp_fuzzy_limit_all1不要将 kn->sp 模糊限制局限于表格
tosp_stats_use_xht_gaps1在 xht 间隙内使用 WD 断点
tosp_use_xht_gaps1在 xht 间隙内使用 WD 断点
仅使用 xht_gaps0仅在 xht 间隙内使用,用于 wd 断点
第 9 条规则测试标点符号0不要在标点符号旁边的空格中chng kn
向空间翻转_fuzz_kn_to_sp1默认翻转
TSP_FLIP_FUZZ_SP_TO_KN1默认翻转
改进阈值0启用改进启发式
textord_noo_rejects0不要删除噪点
textord_show_blobs0显示未分类的 Blob
textord_show_boxes0显示未分类的 Blob
textord_noise_rejwords1拒绝噪音类词语
文本ord_noise_rejrows1拒绝噪音行
textord_noise_debug0调试行垃圾检测器
classify_learn_debug_str调试学习的班级 str
user_words_file用户提供的单词文件名。
用户词缀用户提供的位于 tessdata 中的单词后缀。
用户模式文件用户提供的模式文件名。
user_patterns_suffix用户提供的位于 tessdata 中的模式的后缀。
输出ambig_words_file在词典中发现歧义的输出文件
word_to_debug应将停止符调试信息打印到 stdout 的字
字符黑名单不识别字符的黑名单
tessedit_char_whitelist要识别的字符白名单
tessedit_char_unblacklistList of chars to override 字符黑名单
tessedit_write_params_to_file将所有参数写入给定文件。
applybox_exposure_pattern.exp曝光值在图像文件名中遵循这种模式。图像文件名应为 [lang].[fontname].exp[num].tif。
chs_leading_punct ('`"前导标点符号
chs_trailing_punct1).,;:?!第 1 个尾部标点符号
chs_trailing_punct2 )'`"第 2 个尾部标点符号
大纲_多德%非标准大纲数量
outlines_2 ij!?%":;非标准大纲数量
数字标点符号.,数字内应包含的标点符号章节
未识别字符未识别 Blob 的输出字符
ok_repeated_ch_non_alphanum_wds-?*=允许 NN 取消
冲突设置_I_l_1Il1 []Il1 冲突集
文件类型.tif文件扩展名
tessedit_load_sublangs与此语言一起加载的语言列表
分页符分页符(默认为换页控制字符)
字符范围分类0.2字符归一化范围 ...
最大分级比率1.5分类器评级之间的否决率
分类最大确定性边际值5.5分类器确定性之间的差异
阈值匹配器0.125精彩比赛 (0-1)
可靠的自适应结果0伟大的比赛 (0-1)
完美阈值0.02完美匹配 (0-1)
Matcher_bad_match_pad0.15坏火柴垫(0-1)
边距0.1新模板边距 (0-1)
matcher_avg_noise_size12平均噪点长度
matcher_clustering_max_angle_delta0.015原型聚类的最大三角角
对垃圾罚款进行分类0当非数字垂直偏离其预期文本行位置时的惩罚措施
等级1.5等级缩放系数
确定性标度20确定性比例系数
()()()()()()0.00390625未使用特征的比例系数
分类适应剪枝因子2.5修剪适应性差的结果,这比最佳结果要差得多
分类适应剪枝阈值-1Threshold at which 分类适应剪枝因子 starts
将字符碎片分类 垃圾确定性阈值-3将不像完整字符的片段排除在训练和改编之外
斑点最大尺寸0.3最大大斑点尺寸
斑点评级惩罚10噪音最差等级加罚
xheight_penalty_subscripts0.125如果单词中有下标或上标,则加分(0.1 = 10%),但其他方面没有问题。
xheight_penalty_inconsistent0.25如果 x 高度不一致,会增加分数惩罚(0.1 = 10%)。
分段罚则常用字1单词匹配的得分乘数,这些单词在指定语言中具有较好的大小写且频繁出现(越低越好)。
分段处罚决定书(segment_penalty_dict_case_ok1.1大小写匹配的单词得分乘数(越低越好)。
不良处罚分段1.3125单词匹配的默认分数乘数,可能会有大小写问题(越低越好)。
段落_惩罚_dict_nonword1.25与字典单词不匹配的字形片段分割的得分乘数(越低越好)。
垃圾分段惩罚1.5针对不在字典中且通常看起来像垃圾的劣质字符串的得分乘数(越低越好)。
确定性标度20确定性比例系数
停顿_不确定_基数-2.5非词汇的确定性阈值
停止计时器第 2 阶段的确定性拒绝偏移量1拒绝确定性抵消
每个字符的塞子确定性-0.5确定为小字以上的每个字符添加。
制止可容许的不良行为3单词中允许的最大变化量(单位:西格玛)
doc_dict_pending_threshold0使用待处理字典的最差确定性
doc_dict_certainty_threshold-2.25可插入文档字典的单词的最差确定性
确定性阈值-2.25好球限制
chop_split_dist_knob0.5分割长度调整
chop_overlap_knob0.9分割重叠调整
切削中心旋钮0.15分割中心调整
切削锐度旋钮0.06分割锐度调整
切变宽度旋钮5宽度变化调节
chop_ok_split100确定分割限值
chop_good_split50良好的分割限制
segsearch_max_char_wh_ratio2最大字符宽高比