如何使用钢铁魔方
IronOCR 提供了一个直观的 API,用于使用定制和优化的 Tesseract 5,称为 Iron Tesseract。 通过使用IronOCR和IronTesseract,您将能够将文本图片和扫描文档转换为文本和可搜索的PDF。
开始使用IronOCR
立即在您的项目中开始使用IronOCR,并享受免费试用。
如何使用钢铁魔方
- 使用 NuGet 安装 OCR 库以读取图像
- 利用定制 Tesseract 5 进行 OCR 识别
- 加载所需的文件(如图像或 PDF 文件)以进行处理
- 将提取的文本输出到控制台或文件中
- 将结果保存为可搜索的 PDF 文件
创建 IronTesseract 实例
只需像这样初始化一个tesseract对象:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-initialize-irontesseract.cs
using IronOcr;
IronTesseract ocr = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
您可以通过选择不同的语言、启用条形码读取和白名单/黑名单字符来定制 IronTesseract 的行为:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-configure-irontesseract.cs
IronTesseract ocr = new IronTesseract
{
Configuration = new TesseractConfiguration
{
ReadBarCodes = false,
RenderHocr = true,
TesseractVariables = null,
WhiteListCharacters = null,
BlackListCharacters = "`ë|^",
},
MultiThreaded = false,
Language = OcrLanguage.English,
EnableTesseractConsoleMessages = true, // False as default
};
Dim ocr As New IronTesseract With {
.Configuration = New TesseractConfiguration With {
.ReadBarCodes = False,
.RenderHocr = True,
.TesseractVariables = Nothing,
.WhiteListCharacters = Nothing,
.BlackListCharacters = "`ë|^"
},
.MultiThreaded = False,
.Language = OcrLanguage.English,
.EnableTesseractConsoleMessages = True
}
完成上述操作后,就可以使用 Tesseract 功能读取 OcrInput
对象:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-read.cs
IronTesseract ocr = new IronTesseract();
using OcrInput input = new OcrInput();
input.LoadImage("attachment.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadImage("attachment.png")
Dim result As OcrResult = ocr.Read(input)
Dim text As String = result.Text
End Using
高级 Tesseract 配置变量
IronOCR Tesseract 接口允许完全控制 Tesseract 配置变量。
IronOcr.TesseractConfiguration 类
Tesseract 配置代码示例
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-tesseract-configuration.cs
using IronOcr;
using System;
IronTesseract Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.English;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
// Configure Tesseract Engine
Ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;
using var input = new OcrInput();
input.LoadImage("/path/file.png");
OcrResult Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Imports IronOcr
Imports System
Private Ocr As New IronTesseract()
Ocr.Language = OcrLanguage.English
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
' Configure Tesseract Engine
Ocr.Configuration.TesseractVariables("tessedit_parallelize") = False
Dim input = New OcrInput()
input.LoadImage("/path/file.png")
Dim Result As OcrResult = Ocr.Read(input)
Console.WriteLine(Result.Text)
所有 Tesseract 配置变量列表
这些可以通过使用 IronTesseract.Configuration.TesseractVariables 设置。["键"]= value;
魔方配置变量 | 默认值 | 意义 |
---|---|---|
分级次数 | 等级修剪器数量 | |
textord_debug_tabfind | 调试选项卡查找 | |
textord_debug_bugs | 在选项卡查找中打开与错误相关的输出 | |
textord_testregion_left | -1 | 调试报告矩形的左边缘 |
textord_testregion_top | -1 | 调试报告矩形的上边缘 |
textord_testregion_right | 147483647 | 调试矩形的右边缘 |
textord_testregion_bottom | 147483647 | 调试矩形的底边 |
textord_tabfind_show_partitions | 显示分区边界,如果 >1 则等待 | |
devanagari_split_debuglevel | 拆分 Shiro-rekha 进程的调试级别。 | |
每个轮廓的最大子轮廓边数 | 字符轮廓内子字符的最大数量 | |
最大子层边缘数 | 字符轮廓内嵌套子代的最大层数 | |
每个子孙边数 | 卡盘轮廓的重要比率 | |
子边数限制 | Blob 中允许的最大孔数 | |
最小无孔边缘 | 框内潜在字符的最小像素 | |
边缘比例 | 可接受的儿童轮廓的最大镜头数量/面积 | |
textord_fp_chop_error | 斩波器的最大允许弯曲度 | |
textord_tabfind_show_images | 显示图像块 | |
textord_skewsmooth_offset | 平滑系数 | |
textord_skewsmooth_offset2 | 平滑系数 | |
textord_test_x | -2147483647 | 测试点协调 |
textord_test_y | -2147483647 | 测试点协调 |
textord_min_blobs_in_row | 梯度计算前的最小值 | |
textord_spline_minblobs | 每个样条线段中的最小值 | |
文本ord_spline_medianwin | 样条分割的窗口大小 | |
textord_max_blob_overlaps | 一个大圆球可以重叠的最大圆球个数 | |
textord_min_xheight | 最小可信像素 x 高度 | |
文本ord_lms_line_trials | 要做的线路配合次数 | |
oldbl_holed_losscount | 使用备用线路前的最大损失 | |
pitsync_linear_version | 使用新的快速算法 | |
pitsync_fake_depth | 最大预付假货生成量 | |
textord_tabfind_show_strokewidths | 显示笔画宽度 | |
textord_dotmatrix_gap | 破碎像素间距的最大像素间距 | |
textord_debug_block | 块进行调试 | |
textord_pitch_range | 间距最大范围测试 | |
文本 word_veto_power | 否决票所需的行数 | |
方程检测保存比对图像 | 保存输入的双图像 | |
方程检测保存图像 | 保存特殊字符图像 | |
方程检测保存种子图像 | 保存种子图像 | |
方程检测保存合并图像 | 保存合并后的图像 | |
多重调试 | 调试旧聚合物 | |
更佳的多边形物体 | 更准确地了解各种事物 | |
wordrec_display_splits | 显示分割 | |
textord_debug_printable | 打印调试窗口 | |
文本记录空间大小可变 | 如果为 "true",即使字符具有固定间距,也会假定字分隔符空格具有可变宽度。 | |
textord_tabfind_show_initial_partitions | 显示分区边界 | |
textord_tabfind_show_reject_blobs | 显示被当作噪音剔除的小块 | |
textord_tabfind_show_columns | 显示列边界 | |
textord_tabfind_show_blocks | 显示最终区块边界 | |
textord_tabfind_find_tables | 运行表检测 | |
devanagari_split_debugimage | 是否为 split shiro-rekha 进程创建调试映像。 | |
textord_show_fixed_cuts | 绘制固定间距单元边界 | |
边缘使用新外线复杂度 | 使用新的大纲复杂性模块 | |
边缘调试 | 打开该模块的调试 | |
固定边 | 删除 char-like 子代的方形父代 | |
差距图调试 | 说说哪些区块有表格 | |
gapmap_use_ends | 在行首和行尾使用大空格 | |
无隔离量子间隙图 | 确保间隙不小于 2 夸脱宽 | |
重型文字记录器 | 大力消除噪音 | |
textord_show_initial_rows | 显示行累积 | |
textord_show_parallel_rows | 显示页面相关行 | |
textord_show_expanded_rows | 展开后显示行 | |
textord_show_final_rows | 显示最终拟合后的行 | |
textord_show_final_blobs | 预ass 后显示 blob 边界 | |
textord_test_landscape | 测试指陆地/港口 | |
textord_parallel_baselines | 强制平行基线 | |
直线基线 | 强制直线基线 | |
旧基线 | 使用旧的基线算法 | |
textord_old_xheight | 使用旧的 xheight 算法 | |
textord_fix_xheight_bug | 使用样条基线 | |
文本记录修正错误 | 防止多重基线 | |
textord_debug_xheights | 测试 x 高度算法 | |
textord_biased_skewcalc | 随线路长度变化的偏斜估计值 | |
textord_interpolating_skew | 跨间隙插值 | |
textord_new_initial_xheight | 使用测试 x 高度机制 | |
textord_debug_blob | 打印测试数据块信息 | |
textord_really_old_xheight | 使用原来的 wiseowl xheight | |
textord_oldbl_debug | 调试旧基线生成 | |
textord_debug_baselines | 调试基线生成 | |
textord_oldbl_paradef | 使用 para 默认机制 | |
textord_oldbl_split_splines | 剖分式阶梯花键 | |
textord_oldbl_merge_parts | 合并可疑分区 | |
oldbl_corrfix | 改善高度的相关性 | |
oldbl_xhfix | 修复 xheights 模式阈值的错误 | |
文字记录模式 | 为 ocropus 制作基线 | |
textord_tabfind_only_strokewidths | 只运行笔划宽度 | |
textord_tabfind_show_initialtabs | 显示选项卡候选人 | |
textord_tabfind_show_finaltabs | 显示选项卡向量 | |
textord_show_tables | 显示表格区域 | |
textord_tablefind_show_mark | 详细的调试表标记步骤 | |
textord_tablefind_show_stats | 显示查找表格时使用的页面统计信息 | |
textord_tablefind_recognize_tables | 启用表格识别器进行表格布局和筛选。 | |
textord_all_prop | 所有文档均为比例文本 | |
textord_debug_pitch_test | 固定螺距测试调试 | |
textord_disable_pitch_test | 关闭 dp 固定螺距算法 | |
textord_fast_pitch_test | 做更快的俯仰算法 | |
textord_debug_pitch_metric | 写满公制的东西 | |
textord_show_row_cuts | 绘制行级切割图 | |
textord_show_page_cuts | 绘制页面级裁剪 | |
文本字距 | 使用正确的固定/螺旋桨答案 | |
textord_blockndoc_fixed | 尝试整个文档/区块的固定间距 | |
textord_show_initial_words | 显示单独的单词 | |
textord_show_new_words | 显示单独的单词 | |
textord_show_fixed_words | 显示强制固定音高单词 | |
textord_blocksall_fixed | 对道具块的抱怨 | |
textord_blocksall_prop | 对固定螺距区块的抱怨 | |
textord_blocksall_testing | 呻吟时丢弃统计数据 | |
文本记录测试模式 | 进行电流测试 | |
大词音调 | 大词量表得分 | |
textord_restore_underlines | 删除下划线并放回原处 | |
textord_fp_chopping | 进行固定螺距切削 | |
textord_force_make_prop_words | 强制在所有行上按比例分词 | |
textord_chopper_test | 菜刀正在接受测试。 | |
wordrec_display_all_blobs | 显示 Blobs | |
wordrec_blob_pause | Blob 暂停 | |
流文件列表 | 从 stdin 流式传输文件列表 | |
调试文件 | 将 tprintf 输出发送到的文件 | |
字体名称分类 | 未知字体 | 训练中使用的默认字体名称 |
文件标题 | 输出文件标题(用于 hOCR 和 PDF 输出) | |
点产品 | 自动 | 用于计算点积的函数 |
分类_CP_角度_垫子_松动 | 类修剪器角垫松动 | |
中型角垫分类 | 中型修枝剪角垫 | |
分类_CP_角度_垫子_紧固 | CLass 剪枝器角垫紧固件 | |
分类_cp_end_pad_loose | .5 | 类修枝剪端垫松动 |
分类_cp_end_pad_medium | .5 | 中型修枝剪末端垫 |
分类_cp_end_pad_tight | .5 | 类修枝剪末端垫紧 |
分类_cp_side_pad_loose | .5 | 类修枝剪侧垫松动 |
中型分类 | .2 | 中型修枝剪侧垫 |
分类_cp_side_pad_tight | .6 | 类修剪器侧垫紧 |
角垫分类 | Proto 剪枝器角垫 | |
分类_pp_end_pad | .5 | Proto Prune 端垫 |
对 pp_side_pad 进行分类 | .5 | Proto 剪枝刀侧垫 |
最小斜率分类 | .414214 | 低于该斜率的直线称为水平线 |
最大坡度分类 | .41421 | 垂直线的斜率 |
中点常模分类 | 规范调整中点 ... | |
分类_norm_adj_curl | 通常情况下,调整卷曲... | |
分类特征长度 | .05 | Pico 功能长度 |
下划线阈值 | .5 | 占用宽度的百分比 |
边缘_儿童区 | .5 | 儿童轮廓的最小面积分数 |
边框 | .875 | 箱体的子代最小面积分数 |
textord_fp_chop_snap | .5 | 切点与顶点的最大距离 |
大差距地图 | .75 | xht 倍增器 |
文本记录平移分数 | .02 | 四边形行距的分数 |
文本记录分割离群分数 | .1 | 离群值的行距分数 |
textord_skew_ile | .5 | 页面倾斜的梯度 |
textord_skew_lag | .02 | 行累积偏斜滞后 |
textord_linespace_iqrlimit | .2 | 线路空间的最大 iqr/中值 |
文本字宽限制 | 行的最大宽度 | |
textord_chop_width | .5 | 切割前最大宽度 |
文本记录扩展因子 | 在 expand_rows 中按系数扩展行 | |
textord_overlap_x | .375 | 良好重叠的行间距比例 |
textord_minxh | .25 | 最小 x 高度的行距分数 |
textord_min_linesize | .25 | * 初始行大小的 blob 高度 |
textord_excess_blobsize | .3 | 如果 Blob 使行列变得如此之大,则新建一行 |
文本记录占用阈值 | .4 | 邻里比例 |
下划线宽度 | 下划线的行尺寸倍数 | |
textord_min_blob_height_fraction | .75 | 最小 blob 高度/顶部,以便将 blob 顶部纳入 xheight 统计中 |
textord_xheight_mode_fraction | .4 | 最小堆高 x 高度 |
textord_ascheight_mode_fraction | .08 | 最小堆高 |
textord_descheight_mode_fraction | .08 | 最小堆高,以便降低高度 |
textord_ascx_ratio_min | .25 | 最小上限/x 高度 |
textord_ascx_ratio_max | .8 | 最大上限/高度 |
textord_descx_ratio_min | .25 | 最小描述/高度 |
textord_descx_ratio_max | .6 | 最大描述/高度 |
textord_xheight_error_margin | .1 | 接受变化 |
oldbl_xhfract | .4 | 计算中允许的 est 分数 |
oldbl_dot_error_size | .26 | 点的最大长宽比 |
textord_oldbl_jumplimit | .15 | 新分区的 X 分数 |
pitsync_joined_edge | .75 | 分布在大圆球内,以便切碎 |
pitsync_offset_freecut_fraction | .25 | 自由切割的切割比例 |
textord_tabvector_vertical_gap_fraction | .5 | 竖排文字中的垂直间隙所允许的平均 Blob 宽度的最大分数 |
textord_tabvector_vertical_box_ratio | .5 | 宣布一条直线垂直所需的火柴盒火柴数 |
textord_projection_scale | .2 | 中段剪切的定型率 |
平衡因子 | 不平衡炭化电池的定值率 | |
textord_wordstats_smooth_factor | .05 | 平滑差距统计 |
textord_width_smooth_factor | .1 | 平滑宽度统计 |
textord_words_width_ile | .4 | 空间 est 的球状体宽度列表 |
textord_words_maxspace | x 高度的倍数 | |
textord_words_default_maxspace | .5 | 最可信的第三空间 |
textord_words_default_minspace | .6 | xheight 的分数 |
textord_words_min_minspace | .3 | xheight 的分数 |
textord_words_default_nonspace(默认空格 | .2 | xheight 的分数 |
textord_words_initial_lower | .25 | 最大初始集群规模 |
textord_words_initial_upper | .15 | 最小初始群集间距 |
textord_words_minlarge | .75 | 所需的有效间隙比例 |
textord_words_pitchsd_threshold | .04 | 音高同步阈值 |
textord_words_def_fixed | .016 | 明确固定的阈值 |
textord_words_def_prop | .09 | 确定道具的阈值 |
textord_pitch_rowsimilarity | .08 | 相同高度 xheight 的分数 |
words_initial_lower | .5 | 最大初始集群规模 |
词首上部 | .15 | 最小初始群集间距 |
words_default_prop_nonspace | .25 | xheight 的分数 |
words_default_fixed_space | .75 | xheight 的分数 |
默认字数限制 | .6 | 允许的尺寸差异 |
textord_words_definite_spread(单词定义扩展 | .3 | 非模糊间隔区域 |
textord_spacesize_ratiofp | .8 | 空间/非空间最小比率 |
textord_spacesize_ratioprop | 空间/非空间最小比率 | |
textord_fpiqr_ratio | .5 | 间距 IQR/间隙 IQR 阈值 |
textord_max_pitch_iqr | .2 | Xh 分辨率噪声 |
textord_fp_min_width | .5 | 像样球体的最小宽度 |
textord_underline_offset | .1 | 忽略 x 的分数 |
调试级别 | 单字符模糊调试级别 | |
分类调试级别 | 划分调试级别 | |
正态分类方法 | 归一化方法 ... | |
matcher_debug_level | 匹配器调试级别 | |
matcher_debug_flags | 匹配器调试标志 | |
分类学习调试级别 | 学习调试级别: | |
matcher_permanent_classes_min | 最少常设班级数 | |
matcher_min_examples_for_ prototyping | 可靠配置阈值 | |
matcher_sufficient_examples_ for_prototyping | 即使未发现歧义,也能进行调整 | |
分类适应阈值 | 30 | 自适应期间良好原态的阈值 0-255 |
分类适应特征阈值 | 30 | 自适应期间良好特征的阈值 0-255 |
分类阈值 | 29 | 等级修剪器阈值 0-255 |
分类分枝倍增器 | 5 | 等级修剪器乘数 0-255: |
强度分类 | 类剪枝剪强度: | |
整数调制器倍增器分类 | 整数匹配器乘法器 0-255: | |
dawg_debug_level | 设置为 1 可查看一般调试信息,设置为 2 可查看更多细节,设置为 3 可查看所有调试信息 | |
hyphen_debug_level | 连字符的调试级别。 | |
小字体大小 | 作为非独占词处理的独占词大小 | |
stopper_debug_level | 停止器调试级别 | |
tessedit_truncate_wordchoice_log | 列表中保留的最大字数 | |
max_permuter_attempts | 0000 | 在排列过程中要考虑的不同字符选择的最大数量。这个限制在指定用户模式时特别有用,因为过于通用的模式会导致 dawg 搜索探索过多的选项。 |
修复被撞坏的球体 | 修复未切碎的 Blobs | |
chop_debug | 斩波调试 | |
chop_split_length | 0000 | 分割长度 |
相同距离 | 相同距离 | |
chop_min_outline_points | 大纲上的最小点数 | |
切缝堆叠尺寸 | 50 | 接缝堆中的最大接缝数 |
内切角 | -50 | 最小内角弯曲 |
chop_min_outline_area | 000 | 最小轮廓面积 |
以切线为中心的最大宽度 | 较小碎块的宽度,在此宽度之上,我们不考虑碎块是否靠近中心。 | |
chop_x_y_weight | X / Y 长度 重量 | |
wordrec_debug_level | wordrec 的调试级别 | |
wordrec_max_join_chunks | 关联的最大破碎件数 | |
segsearch_debug_level | SegSearch 调试级别 | |
最大搜索痛苦点数 | 000 | 队列中存储的痛点的最大数量 |
最大搜索有用分类 | 每个大块中没有找到更好词语的痛点分类的最大数量。 | |
语言模型调试级别 | 语言模型调试级别 | |
语言模型语序 | 字符语法模型的最大阶数 | |
language_model_viterbi_list_ max_num_prunable | 0 | 可修剪的最大数量 (PrunablePath()为真) entries in each viterbi list recorded in BLOB_CHOICEs |
语言模型维特比 list_max_size | 00 | BLOB_CHOICE 中记录的 viterbi 列表的最大大小 |
语言模型最小复合长度 | 复合词的最小长度 | |
wordrec_display_segmentations | 显示细分 | |
tessedit_pageseg_mode | 分页模式:0=osd only, 1=auto+osd, 2=auto_only, 3=auto, 4=column, 5=block_vert, 6=block, 7=line, 8=word, 9=word_circle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (取自 tesseract/publictypes.h 中 PageSegMode 枚举的值) | |
tessedit_ocr_engine_mode | 要运行的 OCR 引擎(Tesseract、LSTM 或两者)。默认加载并运行最精确的可用引擎。 | |
pageseg_devanagari_split_strategy | 在进行页面分割时,是否对 Devanagari 文档使用顶行分割流程。 | |
OCR_DEVANAGARI_Split_Strategy | 在执行 OCR 时,是否对 Devanagari 文档使用顶行分割程序。 | |
调试 | BiDi 调试级别 | |
applybox_debug | 调试级别 | |
applybox_page | 应用方框的页码 | |
tessedit_bigram_debug | 大字符校正的调试输出量。 | |
删除调试噪音 | 调试小轮廓的重新分配 | |
噪声 | 应用于 Blob 的最大变音符数 | |
噪音干扰词 | 6 | 适用于单词的最大变音符数 |
debug_x_ht_level | 重新估计调试 | |
quality_min_initial_alphas_reqd | 好字当头 | |
tessedit_tess_adaption_mode | 9 | 苔丝的适应性决策算法 |
multilang_debug_level | 打印 multilang 调试信息。 | |
段落调试级别 | 打印段落调试信息。 | |
tessedit_preserve_min_wd_len | 只保存比这更长的纬度 | |
评分上限 | 按每 ch 额定值计算的长度 | |
锅底紧缩指标 | 需要多少潜在指标 | |
crunch_leave_lc_strings | 不要压缩小写字符串较长的单词 | |
crunch_leave_uc_strings | 不要压缩小写字符串较长的单词 | |
长时间重复 | 长时间重复的单词 | |
crunch_debug | 如其所言 | |
fixsp_non_noise_limit | 两侧有多少个无噪音蓝牙? | |
fixsp_done_mode | 间距的构成 | |
调试修复空间级别 | 上下文固定空间调试 | |
x_ht_acceptance_tolerance | 字体数据外 blob 顶部的最大允许偏差 | |
x_ht_min_change | 在实际尝试之前,xht 的最小变化量 | |
上标调试 | 小标和上标修正器的调试级别 | |
jpg_quality | 设置 JPEG 质量级别 | |
用户定义的 dpi | 指定输入图像的 DPI | |
最小尝试字符数 | 指定 OSD 期间尝试的最小字符数 | |
suspect_level | 9 | 可疑标记水平 |
可疑短语 | 不要怀疑口述密码比这更长 | |
剔除模式 | 剔除算法 | |
图片边框 | 图像边缘限值附近的 Rej Blbs | |
最小值_sane_x_ht_pixels | 拒绝任何 x-ht lt 或 eq | |
页码 | -1 | -1 -> 所有页面,否则处理特定页面 |
并行化 | 尽可能并行运行 | |
lstm_choice_mode | 允许在 hOCR 输出中包含备选符号选项。有效输入值为 0、1 和 2。0 为默认值。输入 1 时,将包含每个时间步的备选符号选择。输入 2 时,将从 CTC 进程而非网格中提取备选符号选项。选择按字符映射。 | |
lstm_choice_iterations | 设置 lstm_choice_mode 中 Beamsearch 的级联迭代次数。请注意,lstm_choice_mode 的值必须大于 0 才能产生结果。 | |
tosp_debug_level | 调试数据 | |
TSP_enough_space_samples_for_median | 还是应该使用平均值 | |
tosp_redo_kern_limit | 重新估计行所需样本数 | |
tosp_few_samples | 需要的间隙数,有 1 个大间隙可作为表格处理 | |
短行 | 无间隙,使用证书时需要的证书空格很少 | |
方法 | 如何避免愚蠢 | |
textord_max_noise_size | 噪音的像素大小 | |
textord_baseline_debug | 基准调试级别 | |
textord_noise_sizefraction | 最大值的尺寸比例 | |
噪声限值 | 6 | 正常球体的过渡 |
文本记录噪音计数 | 超级标准 Blobs 保存行 | |
使用自适应ambigs | 使用 ambigs 来决定是否适应角色 | |
允许球体分割 | 使用可分割的小块切碎 | |
优先分区 | 分块优先于切块 | |
分类_启用_学习 | 启用自适应分类器 | |
tess_cn_matching | 特征归一化匹配 | |
tess_bn_matching | 基准归一化匹配 | |
分类_启用自适应捕获器 | 启用自适应分类器 | |
分类使用预适配模板 | 使用预适应分类器模板 | |
分类保存改编模板 | 将改编过的模板保存到文件中 | |
分类启用自适应调试器 | 启用匹配调试器 | |
非线性正态分类 | 非线性中风密度归一化 | |
禁用字符碎片 | 分类结果中不包含字符片段 | |
字符碎片分类 | 调出图形调试窗口进行片段训练 | |
matcher_debug_separate_windows | 使用两个不同的窗口进行匹配调试:一个用于原型,另一个用于功能。 | |
分类数值模式 | 假设输入为数字 [0-9]。 | |
加载系统 | 装载系统单词 | |
加载频率 | 加载频繁的单词 | |
load_unambig_dawg | 加载毫不含糊的单词 "Dawg"。 | |
load_punc_dawg | 用标点符号模式加载 dawg。 | |
装载数量 | 用数字模式装载小家伙 | |
加载大图 | 给 dawg 装上特殊的单词大法。 | |
仅使用第一个步骤 | 计算对数概率时,只使用给定字符串的第一个 UTF8 阶。 | |
停止不接受的选择 | 使 AcceptableChoice() 始终返回 false。在需要探索所有分段时非常有用 | |
黑体脚本分段 | 不要使用任何针对字母的技巧。在 traineddata 配置文件中将草书或固有固定间距的脚本设为 true | |
保存文档字词 | 保存文件字数 | |
合并矩阵中的碎片 | 合并评级矩阵中的片段,并在合并后删除它们 | |
wordrec_enable_assoc | 启用关联器 | |
force_word_assoc | 强制关联程序运行,无论 enable_assoc 为何。这用于需要对组件进行分组的中日韩语言。 | |
chop_enable | 启用斩波器 | |
垂直匍匐 | 垂直蠕变 | |
切削新缝合线 | 使用新的 seam_pile | |
假定固定间距字符段 | 在字符分段中加入固定音高启发法 | |
wordrec_skip_no_truth_words(忽略不实词语 | 只对 BlamerBundle 中已记录真相的单词运行 OCR | |
调试器 | 打印 Blamer 调试信息 | |
wordrec_run_blamer | 尝试将错误归咎于他人 | |
保存选项 | 保存在切分和分割搜索过程中发现的备选路径 | |
语言模型负词表 | 打开/关闭字符语法模型的使用 | |
language_model_ngram_use_ only_first_uft8_step | 计算对数概率时,只使用给定字符串的第一个 UTF8 阶。 | |
language_model_ngram_space_ delimited_language | 单词用空格分隔 | |
语言模型使用西格码确定性 | 使用西格玛评分来确定性 | |
从方框重新分段 | 从盒式文件中提取分段和标签 | |
tessedit_resegment_from_line_boxes | 将单词/行方框文件转换为字符方框文件 | |
tessedit_train_from_boxes | 从方框字符中生成训练数据 | |
tessedit_make_boxes_from_boxes | 从方框字符中生成更多方框 | |
tessedit_train_line_recognizer | 将输入内容分行,并重新映射方框(如果有的话 | |
tessedit_dump_pageseg_images | 转存页面分割过程中生成的中间图像 | |
tessedit_doo_invert | 尝试在 `LSTMRecognizeWord` 中反转图像 | |
tessedit_ambigs_training | 进行模糊培训 | |
tessedit_adaption_debug | 生成并打印适应性调试信息 | |
applybox_learn_chars_and_char_frags_mode | 既可学习字符片段(如在特殊的低曝光模式下),也可学习未片段字符。 | |
applybox_learn_ngrams_mode | 假设每个边界框都包含 ngrams。只学习其轮廓在水平方向上重叠的 ngram。 | |
tessedit_display_outwords | 绘制输出字 | |
tessedit_dump_choices | 转存字符选择 | |
tessedit_timing_debug | 打印计时统计 | |
tessedit_fix_fuzzy_spaces | 尝试改善模糊空间 | |
tessedit_unrej_any_wd | 不要纠结于词语的合理性 | |
修正hyphens | 压缩双连字符? | |
tessedit_enable_doc_dict | 在文档字典中添加单词 | |
tessedit_debug_fonts | 按字符输出字体信息 | |
tessedit_debug_block_rejection | 块和行统计 | |
tessedit_enable_bigram_correction | 启用基于单词大词词典的校正功能。 | |
tessedit_enable_dict_correction | 启用基于词典的单词修正功能。 | |
启用噪音消除功能 | 当小轮廓混淆布局分析时,可将其移除并有条件地重新分配,确定变音与噪声 | |
tessedit_minimal_rej_pass1 | 对通过 1 的输出进行最小限度的剔除 | |
tessedit_test_adaption | 测试适应标准 | |
test_pt | 测试点 | |
基于文本的段落 | 在文本识别后运行段落检测(更准确) | |
lstm_use_matrix | 使用 lstm 进行评级矩阵/光束搜索 | |
质量上乘的无缝钢管 | 减少对优秀文档的拒绝 | |
使用剔除空间 | 拒绝空格? | |
tessedit_preserve_blk_rej_perfect_wds | 在区块剔除中只剔除部分被剔除的字词 | |
tessedit_preserve_row_rej_perfect_wds | 在拒绝行中只拒绝部分被拒绝的词语 | |
tessedit_dont_blkrej_good_wds | 使用分词质量指标 | |
tessedit_dont_rowrej_good_wds | 使用分词质量指标 | |
tessedit_row_rej_good_docs | 对优秀文档实行行拒绝 | |
tessedit_reject_bad_qual_wds | 剔除所有质量差的数据包 | |
tessedit_debug_doc_rejection | 页面统计 | |
tessedit_debug_quality_metrics | 向调试文件输出数据 | |
Bland_unrej | 无检查的无潜力 | |
unlv_tilde_crunching(压缩) | 标记 V.不好的字,表示 tilde crunch | |
字体信息 | 为 hocr 输出添加字体信息 | |
字符框 | 为 hocr 输出添加每个字符的坐标 | |
Crunch_early_merge_tess_fails | 在词语紧缩之前? | |
crunch_early_convert_bad_unlv_chs | 提前取出 ~^? | |
嘎吱嘎吱的可怕垃圾 | 如其所言 | |
crunch_leave_ok_strings | 不要触碰理智的琴弦 | |
紧缩_接受_确定 | 在 okstring 中使用可接受性 | |
crunch_leave_accept_strings | 不要拧断理智的琴弦 | |
紧缩包含数值 | 小提琴阿尔法数字 | |
tessedit_prefer_joined_punct | 奖励加入标点符号 | |
tessedit_write_block_separators | 在输出中写入块分隔符 | |
tessedit_write_rep_codes | 编写重复字符代码 | |
tessedit_write_unlv | 写入 .unlv 输出文件 | |
tessedit_create_txt | 写入 .txt 输出文件 | |
"创造 "系统 | 编写 .html hOCR 输出文件 | |
创建阿尔托 | 编写 .xml ALTO 文件 | |
tessedit_create_lstmbox | 为 LSTM 训练编写 .box 文件 | |
tessedit_create_tsv | 写入 .tsv 输出文件 | |
tessedit_create_wordstrbox | 写入 WordStr 格式的 .box 输出文件 | |
tessedit_create_pdf | 编写 .pdf 输出文件 | |
纯文字 PDF | 只创建一个不可见文本层的 PDF | |
疑似应力_1Il | UNLV 保留 1Il 字符被拒绝 | |
最低拒绝率 | 只拒绝苔丝的失败 | |
零拒绝 | 不要拒绝任何东西 | |
word_for_word(逐字翻译 | 使每个 WERD 的输出精确到一个字 | |
tessedit_zero_kelvin_rejection | 不要拒绝任何东西 | |
tessedit_rejection_debug | 适应性调试 | |
tessedit_flip_0O | 上下文 0O O0 翻转 | |
信任文档 | 在 11l confector 中使用 DOC dawg。 | |
rej_1Il_use_dict_word | 使用听写测试 | |
rej_1Il_trust_permuter_type | 不要重复检查 | |
rej_use_tess_accepted | 个人拒绝控制 | |
rej_use_tess_blanks | 个人拒绝控制 | |
使用良好参数 | 个人拒绝控制 | |
使用合情合理的数据包 | 扩展许可证检查 | |
rej_alphas_in_number_perm(按次数计算的失语症患者人数 | 扩展许可证检查 | |
tessedit_create_boxfile | 输出带方框的文本 | |
tessedit_write_images | 从 IPE 捕捉图像 | |
交互式显示模式 | 交互式运行? | |
超限器 | 根据 dict_word | |
tessedit_use_primary_params_model | 在多语言模式下,使用主要语言的参数模型 | |
textord_tabfind_show_vlines | 查找调试线 | |
textord_use_cjk_fp_model | 使用中日韩固定音高模式 | |
poly_allow_detailed_fx | 允许特征提取器查看原始轮廓 | |
tessedit_init_config_only | 仅使用配置文件初始化。如果该实例不用于 OCR,而仅用于布局分析,则非常有用。 | |
检测公式 | 打开方程检测器 | |
textord_tabfind_vertical_text | 启用垂直检测 | |
textord_tabfind_force_vertical_text | 强制使用垂直文本页面模式 | |
保留词间空格 | 保留多个字间空格 | |
pageseg_apply_music_mask | 检测五线谱并移除相交部分 | |
textord_single_height_mode | 脚本没有 x 高度,因此使用单一模式 | |
tosp_old_too_method | 空间统计使用预切碎? | |
到sp_old_to_constrain_sp_kn | 限制 old_too_method 的词间间隙和词内间隙的相对值。 | |
tosp_only_use_prop_rows | 使用固定间距行的块统计? | |
tosp_force_wordbreak_on_punct | 在标点符号上强制分词,以分隔非空格分隔语言中的长行 | |
tosp_use_pre_chopping | 空间统计使用预切碎? | |
tosp_old_too_bug_fix | 修复旧代码中的疑似错误 | |
tosp_block_use_cert_spaces | 只统计明显的空格 | |
tosp_row_use_cert_spaces | 只统计明显的空格 | |
tsp_narrow_blobs_not_cert | 只统计明显的空格 | |
tosp_row_use_cert_spaces1 | 只统计明显的空格 | |
恢复隔离行统计 | 当证书空间不足时,可单独使用行 | |
仅为内核提供小间隙 | 更好的猜测 | |
全部翻转_模糊 | 通过 ANY 翻转到上下文? | |
tosp_fuzzy_limit_all | 不要将 kn->sp 模糊限制局限于表格 | |
tosp_stats_use_xht_gaps | 在 xht 间隙内使用 WD 断点 | |
tosp_use_xht_gaps | 在 xht 间隙内使用 WD 断点 | |
仅使用 xht_gaps | 仅在 xht 间隙内使用,用于 wd 断点 | |
第 9 条规则测试标点符号 | 不要在标点符号旁边的空格中chng kn | |
向空间翻转_fuzz_kn_to_sp | 默认翻转 | |
TSP_FLIP_FUZZ_SP_TO_KN | 默认翻转 | |
改进阈值 | 启用改进启发式 | |
textord_noo_rejects | 不要删除噪点 | |
textord_show_blobs | 显示未分类的 Blob | |
textord_show_boxes | 显示未分类的 Blob | |
textord_noise_rejwords | 拒绝噪音类词语 | |
文本ord_noise_rejrows | 拒绝噪音行 | |
textord_noise_debug | 调试行垃圾检测器 | |
classify_learn_debug_str | 调试学习的班级 str | |
user_words_file | 用户提供的单词文件名。 | |
用户词缀 | 用户提供的位于 tessdata 中的单词后缀。 | |
用户模式文件 | 用户提供的模式文件名。 | |
user_patterns_suffix | 用户提供的位于 tessdata 中的模式的后缀。 | |
输出ambig_words_file | 在词典中发现歧义的输出文件 | |
word_to_debug | 应将停止符调试信息打印到 stdout 的字 | |
字符黑名单 | 不识别字符的黑名单 | |
tessedit_char_whitelist | 要识别的字符白名单 | |
tessedit_char_unblacklist | 要覆盖 tessedit_char_blacklist 的字符列表 | |
tessedit_write_params_to_file | 将所有参数写入给定文件。 | |
applybox_exposure_pattern | .exp | 曝光值在图像文件名中遵循这种模式。图像文件名应为 [lang].[fontname].exp[num].tif。 |
chs_leading_punct ('`" | 前导标点符号 | |
chs_trailing_punct1 | ).,;:?! | 第 1 个尾部标点符号 |
chs_trailing_punct2 )'`" | 第 2 个尾部标点符号 | |
大纲_多德 | % | 非标准大纲数量 |
outlines_2 ij!?%":; | 非标准大纲数量 | |
数字标点符号 | ., | 数字内应包含的标点符号章节 |
未识别字符 | 未识别 Blob 的输出字符 | |
ok_repeated_ch_non_alphanum_wds | -?*= | 允许 NN 取消 |
冲突设置_I_l_1 | Il1 [] | Il1 冲突集 |
文件类型 | .tif | 文件扩展名 |
tessedit_load_sublangs | 与此语言一起加载的语言列表 | |
分页符 | 分页符(默认为换页控制字符) | |
字符范围分类 | .2 | 字符归一化范围 ... |
最大分级比率 | .5 | 分类器评级之间的否决率 |
分类最大确定性边际值 | .5 | 分类器确定性之间的差异 |
阈值匹配器 | .125 | 精彩比赛 (0-1) |
可靠的自适应结果 | 伟大的比赛 (0-1) | |
完美阈值 | .02 | 完美匹配 (0-1) |
Matcher_bad_match_pad | .15 | 坏火柴垫(0-1) |
边距 | .1 | 新模板边距 (0-1) |
matcher_avg_noise_size | 2 | 平均噪点长度 |
matcher_clustering_max_angle_delta | .015 | 原型聚类的最大三角角 |
对垃圾罚款进行分类 | 当非数字垂直偏离其预期文本行位置时的惩罚措施 | |
等级 | .5 | 等级缩放系数 |
确定性标度 | 0 | 确定性比例系数 |
()()()()()() | .00390625 | 未使用特征的比例系数 |
分类适应剪枝因子 | .5 | 修剪适应性差的结果,这比最佳结果要差得多 |
分类适应剪枝阈值 | -1 | 分类适应剪枝因子的起始阈值 |
对字符片段进行分类 garbage_certainty_threshold | -3 | 将不像完整字符的片段排除在训练和改编之外 |
斑点最大尺寸 | .3 | 最大大斑点尺寸 |
斑点评级惩罚 | 噪音最差等级加罚 | |
xheight_penalty_subscripts | .125 | 如果单词中有下标或上标,则加分(0.1 = 10%),但其他方面没有问题。 |
xheight_penalty_inconsistent | .25 | 如果 x 高度不一致,会增加分数惩罚(0.1 = 10%)。 |
分段罚则常用字 | 单词匹配的得分乘数,这些单词在指定语言中具有较好的大小写且频繁出现(越低越好)。 | |
分段处罚决定书(segment_penalty_dict_case_ok | .1 | 大小写匹配的单词得分乘数(越低越好)。 |
不良处罚分段 | .3125 | 单词匹配的默认分数乘数,可能会有大小写问题(越低越好)。 |
段落_惩罚_dict_nonword | .25 | 与字典单词不匹配的字形片段分割的得分乘数(越低越好)。 |
垃圾分段惩罚 | .5 | 针对不在字典中且通常看起来像垃圾的劣质字符串的得分乘数(越低越好)。 |
确定性标度 | 确定性比例系数 | |
停顿_不确定_基数 | -2.5 | 非词汇的确定性阈值 |
停止计时器第 2 阶段的确定性拒绝偏移量 | 拒绝确定性抵消 | |
每个字符的塞子确定性 | -0.5 | 确定为小字以上的每个字符添加。 |
制止可容许的不良行为 | 单词中允许的最大变化量(单位:西格玛) | |
doc_dict_pending_threshold | 使用待处理字典的最差确定性 | |
doc_dict_certainty_threshold | -2.25 | 可插入文档字典的单词的最差确定性 |
确定性阈值 | -2.25 | 好球限制 |
chop_split_dist_knob | .5 | 分割长度调整 |
chop_overlap_knob | .9 | 分割重叠调整 |
切削中心旋钮 | .15 | 分割中心调整 |
切削锐度旋钮 | .06 | 分割锐度调整 |
切变宽度旋钮 | 宽度变化调节 | |
chop_ok_split | 00 | 确定分割限值 |
chop_good_split | 0 | 良好的分割限制 |
segsearch_max_char_wh_ratio | 最大字符宽高比 |