如何使用钢铁魔方

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR 提供了一个直观的 API,用于使用定制和优化的 Tesseract 5,称为 Iron Tesseract。 通过使用IronOCR和IronTesseract,您将能够将文本图片和扫描文档转换为文本和可搜索的PDF。

开始使用IronOCR

立即在您的项目中开始使用IronOCR,并享受免费试用。

第一步:
green arrow pointer


创建 IronTesseract 实例

只需像这样初始化一个tesseract对象:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-initialize-irontesseract.cs
using IronOcr;

IronTesseract ocr = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

您可以通过选择不同的语言、启用条形码读取和白名单/黑名单字符来定制 IronTesseract 的行为:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-configure-irontesseract.cs
IronTesseract ocr = new IronTesseract
{
    Configuration = new TesseractConfiguration
    {
        ReadBarCodes = false,
        RenderHocr = true,
        TesseractVariables = null,
        WhiteListCharacters = null,
        BlackListCharacters = "`ë|^",
    },
    MultiThreaded = false,
    Language = OcrLanguage.English,
    EnableTesseractConsoleMessages = true, // False as default
};
Dim ocr As New IronTesseract With {
	.Configuration = New TesseractConfiguration With {
		.ReadBarCodes = False,
		.RenderHocr = True,
		.TesseractVariables = Nothing,
		.WhiteListCharacters = Nothing,
		.BlackListCharacters = "`ë|^"
	},
	.MultiThreaded = False,
	.Language = OcrLanguage.English,
	.EnableTesseractConsoleMessages = True
}
VB   C#

完成上述操作后,就可以使用 Tesseract 功能读取 OcrInput 对象:

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-read.cs
IronTesseract ocr = new IronTesseract();

using OcrInput input = new OcrInput();
input.LoadImage("attachment.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Dim ocr As New IronTesseract()

Using input As New OcrInput()
	input.LoadImage("attachment.png")
	Dim result As OcrResult = ocr.Read(input)
	Dim text As String = result.Text
End Using
VB   C#

高级 Tesseract 配置变量

IronOCR Tesseract 接口允许完全控制 Tesseract 配置变量。

IronOcr.TesseractConfiguration 类

Tesseract 配置代码示例

:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-tesseract-configuration.cs
using IronOcr;
using System;

IronTesseract Ocr = new IronTesseract();

Ocr.Language = OcrLanguage.English;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;

// Configure Tesseract Engine
Ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;

using var input = new OcrInput();
input.LoadImage("/path/file.png");

OcrResult Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Imports IronOcr
Imports System

Private Ocr As New IronTesseract()

Ocr.Language = OcrLanguage.English
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd

' Configure Tesseract Engine
Ocr.Configuration.TesseractVariables("tessedit_parallelize") = False

Dim input = New OcrInput()
input.LoadImage("/path/file.png")

Dim Result As OcrResult = Ocr.Read(input)
Console.WriteLine(Result.Text)
VB   C#

所有 Tesseract 配置变量列表

这些可以通过使用 IronTesseract.Configuration.TesseractVariables 设置。["键"]= value;

魔方配置变量默认值意义
分级次数等级修剪器数量
textord_debug_tabfind调试选项卡查找
textord_debug_bugs在选项卡查找中打开与错误相关的输出
textord_testregion_left-1调试报告矩形的左边缘
textord_testregion_top-1调试报告矩形的上边缘
textord_testregion_right147483647调试矩形的右边缘
textord_testregion_bottom147483647调试矩形的底边
textord_tabfind_show_partitions显示分区边界,如果 >1 则等待
devanagari_split_debuglevel拆分 Shiro-rekha 进程的调试级别。
每个轮廓的最大子轮廓边数字符轮廓内子字符的最大数量
最大子层边缘数字符轮廓内嵌套子代的最大层数
每个子孙边数卡盘轮廓的重要比率
子边数限制Blob 中允许的最大孔数
最小无孔边缘框内潜在字符的最小像素
边缘比例可接受的儿童轮廓的最大镜头数量/面积
textord_fp_chop_error斩波器的最大允许弯曲度
textord_tabfind_show_images显示图像块
textord_skewsmooth_offset平滑系数
textord_skewsmooth_offset2平滑系数
textord_test_x-2147483647测试点协调
textord_test_y-2147483647测试点协调
textord_min_blobs_in_row梯度计算前的最小值
textord_spline_minblobs每个样条线段中的最小值
文本ord_spline_medianwin样条分割的窗口大小
textord_max_blob_overlaps一个大圆球可以重叠的最大圆球个数
textord_min_xheight最小可信像素 x 高度
文本ord_lms_line_trials要做的线路配合次数
oldbl_holed_losscount使用备用线路前的最大损失
pitsync_linear_version使用新的快速算法
pitsync_fake_depth最大预付假货生成量
textord_tabfind_show_strokewidths显示笔画宽度
textord_dotmatrix_gap破碎像素间距的最大像素间距
textord_debug_block块进行调试
textord_pitch_range间距最大范围测试
文本 word_veto_power否决票所需的行数
方程检测保存比对图像保存输入的双图像
方程检测保存图像保存特殊字符图像
方程检测保存种子图像保存种子图像
方程检测保存合并图像保存合并后的图像
多重调试调试旧聚合物
更佳的多边形物体更准确地了解各种事物
wordrec_display_splits显示分割
textord_debug_printable打印调试窗口
文本记录空间大小可变如果为 "true",即使字符具有固定间距,也会假定字分隔符空格具有可变宽度。
textord_tabfind_show_initial_partitions显示分区边界
textord_tabfind_show_reject_blobs显示被当作噪音剔除的小块
textord_tabfind_show_columns显示列边界
textord_tabfind_show_blocks显示最终区块边界
textord_tabfind_find_tables运行表检测
devanagari_split_debugimage是否为 split shiro-rekha 进程创建调试映像。
textord_show_fixed_cuts绘制固定间距单元边界
边缘使用新外线复杂度使用新的大纲复杂性模块
边缘调试打开该模块的调试
固定边删除 char-like 子代的方形父代
差距图调试说说哪些区块有表格
gapmap_use_ends在行首和行尾使用大空格
无隔离量子间隙图确保间隙不小于 2 夸脱宽
重型文字记录器大力消除噪音
textord_show_initial_rows显示行累积
textord_show_parallel_rows显示页面相关行
textord_show_expanded_rows展开后显示行
textord_show_final_rows显示最终拟合后的行
textord_show_final_blobs预ass 后显示 blob 边界
textord_test_landscape测试指陆地/港口
textord_parallel_baselines强制平行基线
直线基线强制直线基线
旧基线使用旧的基线算法
textord_old_xheight使用旧的 xheight 算法
textord_fix_xheight_bug使用样条基线
文本记录修正错误防止多重基线
textord_debug_xheights测试 x 高度算法
textord_biased_skewcalc随线路长度变化的偏斜估计值
textord_interpolating_skew跨间隙插值
textord_new_initial_xheight使用测试 x 高度机制
textord_debug_blob打印测试数据块信息
textord_really_old_xheight使用原来的 wiseowl xheight
textord_oldbl_debug调试旧基线生成
textord_debug_baselines调试基线生成
textord_oldbl_paradef使用 para 默认机制
textord_oldbl_split_splines剖分式阶梯花键
textord_oldbl_merge_parts合并可疑分区
oldbl_corrfix改善高度的相关性
oldbl_xhfix修复 xheights 模式阈值的错误
文字记录模式为 ocropus 制作基线
textord_tabfind_only_strokewidths只运行笔划宽度
textord_tabfind_show_initialtabs显示选项卡候选人
textord_tabfind_show_finaltabs显示选项卡向量
textord_show_tables显示表格区域
textord_tablefind_show_mark详细的调试表标记步骤
textord_tablefind_show_stats显示查找表格时使用的页面统计信息
textord_tablefind_recognize_tables启用表格识别器进行表格布局和筛选。
textord_all_prop所有文档均为比例文本
textord_debug_pitch_test固定螺距测试调试
textord_disable_pitch_test关闭 dp 固定螺距算法
textord_fast_pitch_test做更快的俯仰算法
textord_debug_pitch_metric写满公制的东西
textord_show_row_cuts绘制行级切割图
textord_show_page_cuts绘制页面级裁剪
文本字距使用正确的固定/螺旋桨答案
textord_blockndoc_fixed尝试整个文档/区块的固定间距
textord_show_initial_words显示单独的单词
textord_show_new_words显示单独的单词
textord_show_fixed_words显示强制固定音高单词
textord_blocksall_fixed对道具块的抱怨
textord_blocksall_prop对固定螺距区块的抱怨
textord_blocksall_testing呻吟时丢弃统计数据
文本记录测试模式进行电流测试
大词音调大词量表得分
textord_restore_underlines删除下划线并放回原处
textord_fp_chopping进行固定螺距切削
textord_force_make_prop_words强制在所有行上按比例分词
textord_chopper_test菜刀正在接受测试。
wordrec_display_all_blobs显示 Blobs
wordrec_blob_pauseBlob 暂停
流文件列表从 stdin 流式传输文件列表
调试文件将 tprintf 输出发送到的文件
字体名称分类未知字体训练中使用的默认字体名称
文件标题输出文件标题(用于 hOCR 和 PDF 输出)
点产品自动用于计算点积的函数
分类_CP_角度_垫子_松动类修剪器角垫松动
中型角垫分类中型修枝剪角垫
分类_CP_角度_垫子_紧固CLass 剪枝器角垫紧固件
分类_cp_end_pad_loose.5类修枝剪端垫松动
分类_cp_end_pad_medium.5中型修枝剪末端垫
分类_cp_end_pad_tight.5类修枝剪末端垫紧
分类_cp_side_pad_loose.5类修枝剪侧垫松动
中型分类.2中型修枝剪侧垫
分类_cp_side_pad_tight.6类修剪器侧垫紧
角垫分类Proto 剪枝器角垫
分类_pp_end_pad.5Proto Prune 端垫
对 pp_side_pad 进行分类.5Proto 剪枝刀侧垫
最小斜率分类.414214低于该斜率的直线称为水平线
最大坡度分类.41421垂直线的斜率
中点常模分类规范调整中点 ...
分类_norm_adj_curl通常情况下,调整卷曲...
分类特征长度.05Pico 功能长度
下划线阈值.5占用宽度的百分比
边缘_儿童区.5儿童轮廓的最小面积分数
边框.875箱体的子代最小面积分数
textord_fp_chop_snap.5切点与顶点的最大距离
大差距地图.75xht 倍增器
文本记录平移分数.02四边形行距的分数
文本记录分割离群分数.1离群值的行距分数
textord_skew_ile.5页面倾斜的梯度
textord_skew_lag.02行累积偏斜滞后
textord_linespace_iqrlimit.2线路空间的最大 iqr/中值
文本字宽限制行的最大宽度
textord_chop_width.5切割前最大宽度
文本记录扩展因子在 expand_rows 中按系数扩展行
textord_overlap_x.375良好重叠的行间距比例
textord_minxh.25最小 x 高度的行距分数
textord_min_linesize.25* 初始行大小的 blob 高度
textord_excess_blobsize.3如果 Blob 使行列变得如此之大,则新建一行
文本记录占用阈值.4邻里比例
下划线宽度下划线的行尺寸倍数
textord_min_blob_height_fraction.75最小 blob 高度/顶部,以便将 blob 顶部纳入 xheight 统计中
textord_xheight_mode_fraction.4最小堆高 x 高度
textord_ascheight_mode_fraction.08最小堆高
textord_descheight_mode_fraction.08最小堆高,以便降低高度
textord_ascx_ratio_min.25最小上限/x 高度
textord_ascx_ratio_max.8最大上限/高度
textord_descx_ratio_min.25最小描述/高度
textord_descx_ratio_max.6最大描述/高度
textord_xheight_error_margin.1接受变化
oldbl_xhfract.4计算中允许的 est 分数
oldbl_dot_error_size.26点的最大长宽比
textord_oldbl_jumplimit.15新分区的 X 分数
pitsync_joined_edge.75分布在大圆球内,以便切碎
pitsync_offset_freecut_fraction.25自由切割的切割比例
textord_tabvector_vertical_gap_fraction.5竖排文字中的垂直间隙所允许的平均 Blob 宽度的最大分数
textord_tabvector_vertical_box_ratio.5宣布一条直线垂直所需的火柴盒火柴数
textord_projection_scale.2中段剪切的定型率
平衡因子不平衡炭化电池的定值率
textord_wordstats_smooth_factor.05平滑差距统计
textord_width_smooth_factor.1平滑宽度统计
textord_words_width_ile.4空间 est 的球状体宽度列表
textord_words_maxspacex 高度的倍数
textord_words_default_maxspace.5最可信的第三空间
textord_words_default_minspace.6xheight 的分数
textord_words_min_minspace.3xheight 的分数
textord_words_default_nonspace(默认空格.2xheight 的分数
textord_words_initial_lower.25最大初始集群规模
textord_words_initial_upper.15最小初始群集间距
textord_words_minlarge.75所需的有效间隙比例
textord_words_pitchsd_threshold.04音高同步阈值
textord_words_def_fixed.016明确固定的阈值
textord_words_def_prop.09确定道具的阈值
textord_pitch_rowsimilarity.08相同高度 xheight 的分数
words_initial_lower.5最大初始集群规模
词首上部.15最小初始群集间距
words_default_prop_nonspace.25xheight 的分数
words_default_fixed_space.75xheight 的分数
默认字数限制.6允许的尺寸差异
textord_words_definite_spread(单词定义扩展.3非模糊间隔区域
textord_spacesize_ratiofp.8空间/非空间最小比率
textord_spacesize_ratioprop空间/非空间最小比率
textord_fpiqr_ratio.5间距 IQR/间隙 IQR 阈值
textord_max_pitch_iqr.2Xh 分辨率噪声
textord_fp_min_width.5像样球体的最小宽度
textord_underline_offset.1忽略 x 的分数
调试级别单字符模糊调试级别
分类调试级别划分调试级别
正态分类方法归一化方法 ...
matcher_debug_level匹配器调试级别
matcher_debug_flags匹配器调试标志
分类学习调试级别学习调试级别:
matcher_permanent_classes_min最少常设班级数
matcher_min_examples_for_ prototyping可靠配置阈值
matcher_sufficient_examples_ for_prototyping即使未发现歧义,也能进行调整
分类适应阈值30自适应期间良好原态的阈值 0-255
分类适应特征阈值30自适应期间良好特征的阈值 0-255
分类阈值29等级修剪器阈值 0-255
分类分枝倍增器5等级修剪器乘数 0-255:
强度分类类剪枝剪强度:
整数调制器倍增器分类整数匹配器乘法器 0-255:
dawg_debug_level设置为 1 可查看一般调试信息,设置为 2 可查看更多细节,设置为 3 可查看所有调试信息
hyphen_debug_level连字符的调试级别。
小字体大小作为非独占词处理的独占词大小
stopper_debug_level停止器调试级别
tessedit_truncate_wordchoice_log列表中保留的最大字数
max_permuter_attempts0000在排列过程中要考虑的不同字符选择的最大数量。这个限制在指定用户模式时特别有用,因为过于通用的模式会导致 dawg 搜索探索过多的选项。
修复被撞坏的球体修复未切碎的 Blobs
chop_debug斩波调试
chop_split_length0000分割长度
相同距离相同距离
chop_min_outline_points大纲上的最小点数
切缝堆叠尺寸50接缝堆中的最大接缝数
内切角-50最小内角弯曲
chop_min_outline_area000最小轮廓面积
以切线为中心的最大宽度较小碎块的宽度,在此宽度之上,我们不考虑碎块是否靠近中心。
chop_x_y_weightX / Y 长度 重量
wordrec_debug_levelwordrec 的调试级别
wordrec_max_join_chunks关联的最大破碎件数
segsearch_debug_levelSegSearch 调试级别
最大搜索痛苦点数000队列中存储的痛点的最大数量
最大搜索有用分类每个大块中没有找到更好词语的痛点分类的最大数量。
语言模型调试级别语言模型调试级别
语言模型语序字符语法模型的最大阶数
language_model_viterbi_list_ max_num_prunable0可修剪的最大数量 (PrunablePath()为真) entries in each viterbi list recorded in BLOB_CHOICEs
语言模型维特比 list_max_size00BLOB_CHOICE 中记录的 viterbi 列表的最大大小
语言模型最小复合长度复合词的最小长度
wordrec_display_segmentations显示细分
tessedit_pageseg_mode分页模式:0=osd only, 1=auto+osd, 2=auto_only, 3=auto, 4=column, 5=block_vert, 6=block, 7=line, 8=word, 9=word_circle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (取自 tesseract/publictypes.h 中 PageSegMode 枚举的值)
tessedit_ocr_engine_mode要运行的 OCR 引擎(Tesseract、LSTM 或两者)。默认加载并运行最精确的可用引擎。
pageseg_devanagari_split_strategy在进行页面分割时,是否对 Devanagari 文档使用顶行分割流程。
OCR_DEVANAGARI_Split_Strategy在执行 OCR 时,是否对 Devanagari 文档使用顶行分割程序。
调试BiDi 调试级别
applybox_debug调试级别
applybox_page应用方框的页码
tessedit_bigram_debug大字符校正的调试输出量。
删除调试噪音调试小轮廓的重新分配
噪声应用于 Blob 的最大变音符数
噪音干扰词6适用于单词的最大变音符数
debug_x_ht_level重新估计调试
quality_min_initial_alphas_reqd好字当头
tessedit_tess_adaption_mode9苔丝的适应性决策算法
multilang_debug_level打印 multilang 调试信息。
段落调试级别打印段落调试信息。
tessedit_preserve_min_wd_len只保存比这更长的纬度
评分上限按每 ch 额定值计算的长度
锅底紧缩指标需要多少潜在指标
crunch_leave_lc_strings不要压缩小写字符串较长的单词
crunch_leave_uc_strings不要压缩小写字符串较长的单词
长时间重复长时间重复的单词
crunch_debug如其所言
fixsp_non_noise_limit两侧有多少个无噪音蓝牙?
fixsp_done_mode间距的构成
调试修复空间级别上下文固定空间调试
x_ht_acceptance_tolerance字体数据外 blob 顶部的最大允许偏差
x_ht_min_change在实际尝试之前,xht 的最小变化量
上标调试小标和上标修正器的调试级别
jpg_quality设置 JPEG 质量级别
用户定义的 dpi指定输入图像的 DPI
最小尝试字符数指定 OSD 期间尝试的最小字符数
suspect_level9可疑标记水平
可疑短语不要怀疑口述密码比这更长
剔除模式剔除算法
图片边框图像边缘限值附近的 Rej Blbs
最小值_sane_x_ht_pixels拒绝任何 x-ht lt 或 eq
页码-1-1 -> 所有页面,否则处理特定页面
并行化尽可能并行运行
lstm_choice_mode允许在 hOCR 输出中包含备选符号选项。有效输入值为 0、1 和 2。0 为默认值。输入 1 时,将包含每个时间步的备选符号选择。输入 2 时,将从 CTC 进程而非网格中提取备选符号选项。选择按字符映射。
lstm_choice_iterations设置 lstm_choice_mode 中 Beamsearch 的级联迭代次数。请注意,lstm_choice_mode 的值必须大于 0 才能产生结果。
tosp_debug_level调试数据
TSP_enough_space_samples_for_median还是应该使用平均值
tosp_redo_kern_limit重新估计行所需样本数
tosp_few_samples需要的间隙数,有 1 个大间隙可作为表格处理
短行无间隙,使用证书时需要的证书空格很少
方法如何避免愚蠢
textord_max_noise_size噪音的像素大小
textord_baseline_debug基准调试级别
textord_noise_sizefraction最大值的尺寸比例
噪声限值6正常球体的过渡
文本记录噪音计数超级标准 Blobs 保存行
使用自适应ambigs使用 ambigs 来决定是否适应角色
允许球体分割使用可分割的小块切碎
优先分区分块优先于切块
分类_启用_学习启用自适应分类器
tess_cn_matching特征归一化匹配
tess_bn_matching基准归一化匹配
分类_启用自适应捕获器启用自适应分类器
分类使用预适配模板使用预适应分类器模板
分类保存改编模板将改编过的模板保存到文件中
分类启用自适应调试器启用匹配调试器
非线性正态分类非线性中风密度归一化
禁用字符碎片分类结果中不包含字符片段
字符碎片分类调出图形调试窗口进行片段训练
matcher_debug_separate_windows使用两个不同的窗口进行匹配调试:一个用于原型,另一个用于功能。
分类数值模式假设输入为数字 [0-9]。
加载系统装载系统单词
加载频率加载频繁的单词
load_unambig_dawg加载毫不含糊的单词 "Dawg"。
load_punc_dawg用标点符号模式加载 dawg。
装载数量用数字模式装载小家伙
加载大图给 dawg 装上特殊的单词大法。
仅使用第一个步骤计算对数概率时,只使用给定字符串的第一个 UTF8 阶。
停止不接受的选择使 AcceptableChoice() 始终返回 false。在需要探索所有分段时非常有用
黑体脚本分段不要使用任何针对字母的技巧。在 traineddata 配置文件中将草书或固有固定间距的脚本设为 true
保存文档字词保存文件字数
合并矩阵中的碎片合并评级矩阵中的片段,并在合并后删除它们
wordrec_enable_assoc启用关联器
force_word_assoc强制关联程序运行,无论 enable_assoc 为何。这用于需要对组件进行分组的中日韩语言。
chop_enable启用斩波器
垂直匍匐垂直蠕变
切削新缝合线使用新的 seam_pile
假定固定间距字符段在字符分段中加入固定音高启发法
wordrec_skip_no_truth_words(忽略不实词语只对 BlamerBundle 中已记录真相的单词运行 OCR
调试器打印 Blamer 调试信息
wordrec_run_blamer尝试将错误归咎于他人
保存选项保存在切分和分割搜索过程中发现的备选路径
语言模型负词表打开/关闭字符语法模型的使用
language_model_ngram_use_ only_first_uft8_step计算对数概率时,只使用给定字符串的第一个 UTF8 阶。
language_model_ngram_space_ delimited_language单词用空格分隔
语言模型使用西格码确定性使用西格玛评分来确定性
从方框重新分段从盒式文件中提取分段和标签
tessedit_resegment_from_line_boxes将单词/行方框文件转换为字符方框文件
tessedit_train_from_boxes从方框字符中生成训练数据
tessedit_make_boxes_from_boxes从方框字符中生成更多方框
tessedit_train_line_recognizer将输入内容分行,并重新映射方框(如果有的话
tessedit_dump_pageseg_images转存页面分割过程中生成的中间图像
tessedit_doo_invert尝试在 `LSTMRecognizeWord` 中反转图像
tessedit_ambigs_training进行模糊培训
tessedit_adaption_debug生成并打印适应性调试信息
applybox_learn_chars_and_char_frags_mode既可学习字符片段(如在特殊的低曝光模式下),也可学习未片段字符。
applybox_learn_ngrams_mode假设每个边界框都包含 ngrams。只学习其轮廓在水平方向上重叠的 ngram。
tessedit_display_outwords绘制输出字
tessedit_dump_choices转存字符选择
tessedit_timing_debug打印计时统计
tessedit_fix_fuzzy_spaces尝试改善模糊空间
tessedit_unrej_any_wd不要纠结于词语的合理性
修正hyphens压缩双连字符?
tessedit_enable_doc_dict在文档字典中添加单词
tessedit_debug_fonts按字符输出字体信息
tessedit_debug_block_rejection块和行统计
tessedit_enable_bigram_correction启用基于单词大词词典的校正功能。
tessedit_enable_dict_correction启用基于词典的单词修正功能。
启用噪音消除功能当小轮廓混淆布局分析时,可将其移除并有条件地重新分配,确定变音与噪声
tessedit_minimal_rej_pass1对通过 1 的输出进行最小限度的剔除
tessedit_test_adaption测试适应标准
test_pt测试点
基于文本的段落在文本识别后运行段落检测(更准确)
lstm_use_matrix使用 lstm 进行评级矩阵/光束搜索
质量上乘的无缝钢管减少对优秀文档的拒绝
使用剔除空间拒绝空格?
tessedit_preserve_blk_rej_perfect_wds在区块剔除中只剔除部分被剔除的字词
tessedit_preserve_row_rej_perfect_wds在拒绝行中只拒绝部分被拒绝的词语
tessedit_dont_blkrej_good_wds使用分词质量指标
tessedit_dont_rowrej_good_wds使用分词质量指标
tessedit_row_rej_good_docs对优秀文档实行行拒绝
tessedit_reject_bad_qual_wds剔除所有质量差的数据包
tessedit_debug_doc_rejection页面统计
tessedit_debug_quality_metrics向调试文件输出数据
Bland_unrej无检查的无潜力
unlv_tilde_crunching(压缩)标记 V.不好的字,表示 tilde crunch
字体信息为 hocr 输出添加字体信息
字符框为 hocr 输出添加每个字符的坐标
Crunch_early_merge_tess_fails在词语紧缩之前?
crunch_early_convert_bad_unlv_chs提前取出 ~^?
嘎吱嘎吱的可怕垃圾如其所言
crunch_leave_ok_strings不要触碰理智的琴弦
紧缩_接受_确定在 okstring 中使用可接受性
crunch_leave_accept_strings不要拧断理智的琴弦
紧缩包含数值小提琴阿尔法数字
tessedit_prefer_joined_punct奖励加入标点符号
tessedit_write_block_separators在输出中写入块分隔符
tessedit_write_rep_codes编写重复字符代码
tessedit_write_unlv写入 .unlv 输出文件
tessedit_create_txt写入 .txt 输出文件
"创造 "系统编写 .html hOCR 输出文件
创建阿尔托编写 .xml ALTO 文件
tessedit_create_lstmbox为 LSTM 训练编写 .box 文件
tessedit_create_tsv写入 .tsv 输出文件
tessedit_create_wordstrbox写入 WordStr 格式的 .box 输出文件
tessedit_create_pdf编写 .pdf 输出文件
纯文字 PDF只创建一个不可见文本层的 PDF
疑似应力_1IlUNLV 保留 1Il 字符被拒绝
最低拒绝率只拒绝苔丝的失败
零拒绝不要拒绝任何东西
word_for_word(逐字翻译使每个 WERD 的输出精确到一个字
tessedit_zero_kelvin_rejection不要拒绝任何东西
tessedit_rejection_debug适应性调试
tessedit_flip_0O上下文 0O O0 翻转
信任文档在 11l confector 中使用 DOC dawg。
rej_1Il_use_dict_word使用听写测试
rej_1Il_trust_permuter_type不要重复检查
rej_use_tess_accepted个人拒绝控制
rej_use_tess_blanks个人拒绝控制
使用良好参数个人拒绝控制
使用合情合理的数据包扩展许可证检查
rej_alphas_in_number_perm(按次数计算的失语症患者人数扩展许可证检查
tessedit_create_boxfile输出带方框的文本
tessedit_write_images从 IPE 捕捉图像
交互式显示模式交互式运行?
超限器根据 dict_word
tessedit_use_primary_params_model在多语言模式下,使用主要语言的参数模型
textord_tabfind_show_vlines查找调试线
textord_use_cjk_fp_model使用中日韩固定音高模式
poly_allow_detailed_fx允许特征提取器查看原始轮廓
tessedit_init_config_only仅使用配置文件初始化。如果该实例不用于 OCR,而仅用于布局分析,则非常有用。
检测公式打开方程检测器
textord_tabfind_vertical_text启用垂直检测
textord_tabfind_force_vertical_text强制使用垂直文本页面模式
保留词间空格保留多个字间空格
pageseg_apply_music_mask检测五线谱并移除相交部分
textord_single_height_mode脚本没有 x 高度,因此使用单一模式
tosp_old_too_method空间统计使用预切碎?
到sp_old_to_constrain_sp_kn限制 old_too_method 的词间间隙和词内间隙的相对值。
tosp_only_use_prop_rows使用固定间距行的块统计?
tosp_force_wordbreak_on_punct在标点符号上强制分词,以分隔非空格分隔语言中的长行
tosp_use_pre_chopping空间统计使用预切碎?
tosp_old_too_bug_fix修复旧代码中的疑似错误
tosp_block_use_cert_spaces只统计明显的空格
tosp_row_use_cert_spaces只统计明显的空格
tsp_narrow_blobs_not_cert只统计明显的空格
tosp_row_use_cert_spaces1只统计明显的空格
恢复隔离行统计当证书空间不足时,可单独使用行
仅为内核提供小间隙更好的猜测
全部翻转_模糊通过 ANY 翻转到上下文?
tosp_fuzzy_limit_all不要将 kn->sp 模糊限制局限于表格
tosp_stats_use_xht_gaps在 xht 间隙内使用 WD 断点
tosp_use_xht_gaps在 xht 间隙内使用 WD 断点
仅使用 xht_gaps仅在 xht 间隙内使用,用于 wd 断点
第 9 条规则测试标点符号不要在标点符号旁边的空格中chng kn
向空间翻转_fuzz_kn_to_sp默认翻转
TSP_FLIP_FUZZ_SP_TO_KN默认翻转
改进阈值启用改进启发式
textord_noo_rejects不要删除噪点
textord_show_blobs显示未分类的 Blob
textord_show_boxes显示未分类的 Blob
textord_noise_rejwords拒绝噪音类词语
文本ord_noise_rejrows拒绝噪音行
textord_noise_debug调试行垃圾检测器
classify_learn_debug_str调试学习的班级 str
user_words_file用户提供的单词文件名。
用户词缀用户提供的位于 tessdata 中的单词后缀。
用户模式文件用户提供的模式文件名。
user_patterns_suffix用户提供的位于 tessdata 中的模式的后缀。
输出ambig_words_file在词典中发现歧义的输出文件
word_to_debug应将停止符调试信息打印到 stdout 的字
字符黑名单不识别字符的黑名单
tessedit_char_whitelist要识别的字符白名单
tessedit_char_unblacklist要覆盖 tessedit_char_blacklist 的字符列表
tessedit_write_params_to_file将所有参数写入给定文件。
applybox_exposure_pattern.exp曝光值在图像文件名中遵循这种模式。图像文件名应为 [lang].[fontname].exp[num].tif。
chs_leading_punct ('`"前导标点符号
chs_trailing_punct1).,;:?!第 1 个尾部标点符号
chs_trailing_punct2 )'`"第 2 个尾部标点符号
大纲_多德%非标准大纲数量
outlines_2 ij!?%":;非标准大纲数量
数字标点符号.,数字内应包含的标点符号章节
未识别字符未识别 Blob 的输出字符
ok_repeated_ch_non_alphanum_wds-?*=允许 NN 取消
冲突设置_I_l_1Il1 []Il1 冲突集
文件类型.tif文件扩展名
tessedit_load_sublangs与此语言一起加载的语言列表
分页符分页符(默认为换页控制字符)
字符范围分类.2字符归一化范围 ...
最大分级比率.5分类器评级之间的否决率
分类最大确定性边际值.5分类器确定性之间的差异
阈值匹配器.125精彩比赛 (0-1)
可靠的自适应结果伟大的比赛 (0-1)
完美阈值.02完美匹配 (0-1)
Matcher_bad_match_pad.15坏火柴垫(0-1)
边距.1新模板边距 (0-1)
matcher_avg_noise_size2平均噪点长度
matcher_clustering_max_angle_delta.015原型聚类的最大三角角
对垃圾罚款进行分类当非数字垂直偏离其预期文本行位置时的惩罚措施
等级.5等级缩放系数
确定性标度0确定性比例系数
()()()()()().00390625未使用特征的比例系数
分类适应剪枝因子.5修剪适应性差的结果,这比最佳结果要差得多
分类适应剪枝阈值-1分类适应剪枝因子的起始阈值
对字符片段进行分类 garbage_certainty_threshold-3将不像完整字符的片段排除在训练和改编之外
斑点最大尺寸.3最大大斑点尺寸
斑点评级惩罚噪音最差等级加罚
xheight_penalty_subscripts.125如果单词中有下标或上标,则加分(0.1 = 10%),但其他方面没有问题。
xheight_penalty_inconsistent.25如果 x 高度不一致,会增加分数惩罚(0.1 = 10%)。
分段罚则常用字单词匹配的得分乘数,这些单词在指定语言中具有较好的大小写且频繁出现(越低越好)。
分段处罚决定书(segment_penalty_dict_case_ok.1大小写匹配的单词得分乘数(越低越好)。
不良处罚分段.3125单词匹配的默认分数乘数,可能会有大小写问题(越低越好)。
段落_惩罚_dict_nonword.25与字典单词不匹配的字形片段分割的得分乘数(越低越好)。
垃圾分段惩罚.5针对不在字典中且通常看起来像垃圾的劣质字符串的得分乘数(越低越好)。
确定性标度确定性比例系数
停顿_不确定_基数-2.5非词汇的确定性阈值
停止计时器第 2 阶段的确定性拒绝偏移量拒绝确定性抵消
每个字符的塞子确定性-0.5确定为小字以上的每个字符添加。
制止可容许的不良行为单词中允许的最大变化量(单位:西格玛)
doc_dict_pending_threshold使用待处理字典的最差确定性
doc_dict_certainty_threshold-2.25可插入文档字典的单词的最差确定性
确定性阈值-2.25好球限制
chop_split_dist_knob.5分割长度调整
chop_overlap_knob.9分割重叠调整
切削中心旋钮.15分割中心调整
切削锐度旋钮.06分割锐度调整
切变宽度旋钮宽度变化调节
chop_ok_split00确定分割限值
chop_good_split0良好的分割限制
segsearch_max_char_wh_ratio最大字符宽高比