如何使用 Iron Tesseract
IronOCR 提供了一个直观的 API,以便利用定制和优化的 Tesseract 5,称为 Iron Tesseract。通过使用 IronOCR 和 IronTesseract,您将能够将文本图像和扫描文档转换为文本和可搜索的 PDF。
如何使用钢铁魔方
- 使用 NuGet 安装 OCR 库以读取图像
- 利用定制 Tesseract 5 进行 OCR 识别
- 加载所需的文件(如图像或 PDF 文件)以进行处理
- 将提取的文本输出到控制台或文件中
- 将结果保存为可搜索的 PDF 文件
开始在您的项目中使用IronPDF,并立即获取免费试用。
查看 IronOCR 上 Nuget 用于快速安装和部署。它有超过800万次下载,正在使用C#改变OCR。
Install-Package IronOcr
考虑安装 IronOCR DLL 直接。下载并手动安装到您的项目或GAC表单中: IronOcr.zip
手动安装到你的项目中
下载DLL创建一个 IronTesseract 实例
只需像这样初始化一个魔方对象:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-initialize-irontesseract.cs
using IronOcr;
IronTesseract ocr = new IronTesseract();
IRON VB CONVERTER ERROR developers@ironsoftware.com
您可以通过选择不同的语言、启用条形码读取和白名单/黑名单字符来定制 IronTesseract 的行为:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-configure-irontesseract.cs
IronTesseract ocr = new IronTesseract
{
Configuration = new TesseractConfiguration
{
ReadBarCodes = false,
RenderHocr = true,
TesseractVariables = null,
WhiteListCharacters = null,
BlackListCharacters = "`ë|^",
},
MultiThreaded = false,
Language = OcrLanguage.English,
EnableTesseractConsoleMessages = true, // False as default
};
Dim ocr As New IronTesseract With {
.Configuration = New TesseractConfiguration With {
.ReadBarCodes = False,
.RenderHocr = True,
.TesseractVariables = Nothing,
.WhiteListCharacters = Nothing,
.BlackListCharacters = "`ë|^"
},
.MultiThreaded = False,
.Language = OcrLanguage.English,
.EnableTesseractConsoleMessages = True
}
完成上述操作后,就可以使用 Tesseract 功能读取 OcrInput
对象:
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-read.cs
IronTesseract ocr = new IronTesseract();
using OcrInput input = new OcrInput();
input.LoadImage("attachment.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Dim ocr As New IronTesseract()
Using input As New OcrInput()
input.LoadImage("attachment.png")
Dim result As OcrResult = ocr.Read(input)
Dim text As String = result.Text
End Using
高级魔方配置变量
IronOcr Tesseract 界面允许通过
IronOcr.TesseractConfiguration 类
Tesseract 配置代码示例
:path=/static-assets/ocr/content-code-examples/how-to/irontesseract-tesseract-configuration.cs
using IronOcr;
using System;
IronTesseract Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.English;
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd;
// Configure Tesseract Engine
Ocr.Configuration.TesseractVariables["tessedit_parallelize"] = false;
using var input = new OcrInput();
input.LoadImage("/path/file.png");
OcrResult Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Imports IronOcr
Imports System
Private Ocr As New IronTesseract()
Ocr.Language = OcrLanguage.English
Ocr.Configuration.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
' Configure Tesseract Engine
Ocr.Configuration.TesseractVariables("tessedit_parallelize") = False
Dim input = New OcrInput()
input.LoadImage("/path/file.png")
Dim Result As OcrResult = Ocr.Read(input)
Console.WriteLine(Result.Text)
所有 Tesseract 配置变量列表
可以使用 IronTesseract.Configuration.TesseractVariables 设置这些变量。 ["键"] = value;
魔方配置变量 | 默认值 | 意义 |
---|---|---|
分级次数 | 3 | 等级修剪器数量 |
textord_debug_tabfind | 0 | 调试选项卡查找 |
textord_debug_bugs | 0 | 在选项卡查找中打开与错误相关的输出 |
textord_testregion_left | -1 | 调试报告矩形的左边缘 |
textord_testregion_top | -1 | 调试报告矩形的上边缘 |
textord_testregion_right | 2147483647 | 调试矩形的右边缘 |
textord_testregion_bottom | 2147483647 | 调试矩形的底边 |
textord_tabfind_show_partitions | 0 | 显示分区边界,如果 >1 则等待 |
devanagari_split_debuglevel | 0 | 拆分 Shiro-rekha 进程的调试级别。 |
每个轮廓的最大子轮廓边数 | 10 | 字符轮廓内子字符的最大数量 |
最大子层边缘数 | 5 | 字符轮廓内嵌套子代的最大层数 |
每个子孙边数 | 10 | 卡盘轮廓的重要比率 |
子边数限制 | 45 | Blob 中允许的最大孔数 |
最小无孔边缘 | 12 | 框内潜在字符的最小像素 |
边缘比例 | 40 | 可接受的儿童轮廓的最大镜头数量/面积 |
textord_fp_chop_error | 2 | 斩波器的最大允许弯曲度 |
textord_tabfind_show_images | 0 | 显示图像块 |
textord_skewsmooth_offset | 4 | 平滑系数 |
textord_skewsmooth_offset2 | 1 | 平滑系数 |
textord_test_x | -2147483647 | 测试点协调 |
textord_test_y | -2147483647 | 测试点协调 |
textord_min_blobs_in_row | 4 | 梯度计算前的最小值 |
textord_spline_minblobs | 8 | 每个样条线段中的最小值 |
文本ord_spline_medianwin | 6 | 样条分割的窗口大小 |
textord_max_blob_overlaps | 4 | 一个大圆球可以重叠的最大圆球个数 |
textord_min_xheight | 10 | 最小可信像素 x 高度 |
文本ord_lms_line_trials | 12 | 要做的线路配合次数 |
oldbl_holed_losscount | 10 | 使用备用线路前的最大损失 |
pitsync_linear_version | 6 | 使用新的快速算法 |
pitsync_fake_depth | 1 | 最大预付假货生成量 |
textord_tabfind_show_strokewidths | 0 | 显示笔画宽度 |
textord_dotmatrix_gap | 3 | 破碎像素间距的最大像素间距 |
textord_debug_block | 0 | 块进行调试 |
textord_pitch_range | 2 | 间距最大范围测试 |
文本 word_veto_power | 5 | 否决票所需的行数 |
方程检测保存比对图像 | 0 | 保存输入的双图像 |
方程检测保存图像 | 0 | 保存特殊字符图像 |
方程检测保存种子图像 | 0 | 保存种子图像 |
方程检测保存合并图像 | 0 | 保存合并后的图像 |
多重调试 | 0 | 调试旧聚合物 |
更佳的多边形物体 | 1 | 更准确地了解各种事物 |
wordrec_display_splits | 0 | 显示分割 |
textord_debug_printable | 0 | 打印调试窗口 |
文本记录空间大小可变 | 0 | 如果为 "true",即使字符具有固定间距,也会假定字分隔符空格具有可变宽度。 |
textord_tabfind_show_initial_partitions | 0 | 显示分区边界 |
textord_tabfind_show_reject_blobs | 0 | 显示被当作噪音剔除的小块 |
textord_tabfind_show_columns | 0 | 显示列边界 |
textord_tabfind_show_blocks | 0 | 显示最终区块边界 |
textord_tabfind_find_tables | 1 | 运行表检测 |
devanagari_split_debugimage | 0 | 是否为 split shiro-rekha 进程创建调试映像。 |
textord_show_fixed_cuts | 0 | 绘制固定间距单元边界 |
边缘使用新外线复杂度 | 0 | 使用新的大纲复杂性模块 |
边缘调试 | 0 | 打开该模块的调试 |
固定边 | 0 | 删除 char-like 子代的方形父代 |
差距图调试 | 0 | 说说哪些区块有表格 |
gapmap_use_ends | 0 | 在行首和行尾使用大空格 |
无隔离量子间隙图 | 0 | 确保间隙不小于 2 夸脱宽 |
重型文字记录器 | 0 | 大力消除噪音 |
textord_show_initial_rows | 0 | 显示行累积 |
textord_show_parallel_rows | 0 | 显示页面相关行 |
textord_show_expanded_rows | 0 | 展开后显示行 |
textord_show_final_rows | 0 | 显示最终拟合后的行 |
textord_show_final_blobs | 0 | 预ass 后显示 blob 边界 |
textord_test_landscape | 0 | 测试指陆地/港口 |
textord_parallel_baselines | 1 | 强制平行基线 |
直线基线 | 0 | 强制直线基线 |
旧基线 | 1 | 使用旧的基线算法 |
textord_old_xheight | 0 | 使用旧的 xheight 算法 |
textord_fix_xheight_bug | 1 | 使用样条基线 |
文本记录修正错误 | 1 | 防止多重基线 |
textord_debug_xheights | 0 | 测试 x 高度算法 |
textord_biased_skewcalc | 1 | 随线路长度变化的偏斜估计值 |
textord_interpolating_skew | 1 | 跨间隙插值 |
textord_new_initial_xheight | 1 | 使用测试 x 高度机制 |
textord_debug_blob | 0 | 打印测试数据块信息 |
textord_really_old_xheight | 0 | 使用原来的 wiseowl xheight |
textord_oldbl_debug | 0 | 调试旧基线生成 |
textord_debug_baselines | 0 | 调试基线生成 |
textord_oldbl_paradef | 1 | 使用 para 默认机制 |
textord_oldbl_split_splines | 1 | 剖分式阶梯花键 |
textord_oldbl_merge_parts | 1 | 合并可疑分区 |
oldbl_corrfix | 1 | 改善高度的相关性 |
oldbl_xhfix | 0 | 修复 xheights 模式阈值的错误 |
文字记录模式 | 0 | 为 ocropus 制作基线 |
textord_tabfind_only_strokewidths | 0 | 只运行笔划宽度 |
textord_tabfind_show_initialtabs | 0 | 显示选项卡候选人 |
textord_tabfind_show_finaltabs | 0 | 显示选项卡向量 |
textord_show_tables | 0 | 显示表格区域 |
textord_tablefind_show_mark | 0 | 详细的调试表标记步骤 |
textord_tablefind_show_stats | 0 | 显示查找表格时使用的页面统计信息 |
textord_tablefind_recognize_tables | 0 | 启用表格识别器进行表格布局和筛选。 |
textord_all_prop | 0 | 所有文档均为比例文本 |
textord_debug_pitch_test | 0 | 固定螺距测试调试 |
textord_disable_pitch_test | 0 | 关闭 dp 固定螺距算法 |
textord_fast_pitch_test | 0 | 做更快的俯仰算法 |
textord_debug_pitch_metric | 0 | 写满公制的东西 |
textord_show_row_cuts | 0 | 绘制行级切割图 |
textord_show_page_cuts | 0 | 绘制页面级裁剪 |
文本字距 | 0 | 使用正确的固定/螺旋桨答案 |
textord_blockndoc_fixed | 0 | 尝试整个文档/区块的固定间距 |
textord_show_initial_words | 0 | 显示单独的单词 |
textord_show_new_words | 0 | 显示单独的单词 |
textord_show_fixed_words | 0 | 显示强制固定音高单词 |
textord_blocksall_fixed | 0 | 对道具块的抱怨 |
textord_blocksall_prop | 0 | 对固定螺距区块的抱怨 |
textord_blocksall_testing | 0 | 呻吟时丢弃统计数据 |
文本记录测试模式 | 0 | 进行电流测试 |
大词音调 | 0 | 大词量表得分 |
textord_restore_underlines | 1 | 删除下划线并放回原处 |
textord_fp_chopping | 1 | 进行固定螺距切削 |
textord_force_make_prop_words | 0 | 强制在所有行上按比例分词 |
textord_chopper_test | 0 | 菜刀正在接受测试。 |
wordrec_display_all_blobs | 0 | 显示 Blobs |
wordrec_blob_pause | 0 | Blob 暂停 |
流文件列表 | 0 | 从 stdin 流式传输文件列表 |
调试文件 | 将 tprintf 输出发送到的文件 | |
字体名称分类 | 未知字体 | 默认值 font name to be used in training |
文件标题 | 输出文件标题(用于 hOCR 和 PDF 输出) | |
点产品 | 自动 | 用于计算点积的函数 |
分类_CP_角度_垫子_松动 | 45 | 类修剪器角垫松动 |
中型角垫分类 | 20 | 中型修枝剪角垫 |
分类_CP_角度_垫子_紧固 | 10 | CLass 剪枝器角垫紧固件 |
分类_cp_end_pad_loose | 0.5 | 类修枝剪端垫松动 |
分类_cp_end_pad_medium | 0.5 | 中型修枝剪末端垫 |
分类_cp_end_pad_tight | 0.5 | 类修枝剪末端垫紧 |
分类_cp_side_pad_loose | 2.5 | 类修枝剪侧垫松动 |
中型分类 | 1.2 | 中型修枝剪侧垫 |
分类_cp_side_pad_tight | 0.6 | 类修剪器侧垫紧 |
角垫分类 | 45 | Proto 剪枝器角垫 |
分类_pp_end_pad | 0.5 | Proto Prune 端垫 |
对 pp_side_pad 进行分类 | 2.5 | Proto 剪枝刀侧垫 |
最小斜率分类 | 0.414214 | 低于该斜率的直线称为水平线 |
最大坡度分类 | 2.41421 | 垂直线的斜率 |
中点常模分类 | 32 | 规范调整中点 ... |
分类_norm_adj_curl | 2 | 通常情况下,调整卷曲... |
分类特征长度 | 0.05 | Pico 功能长度 |
下划线阈值 | 0.5 | 占用宽度的百分比 |
边缘_儿童区 | 0.5 | 儿童轮廓的最小面积分数 |
边框 | 0.875 | 箱体的子代最小面积分数 |
textord_fp_chop_snap | 0.5 | 切点与顶点的最大距离 |
大差距地图 | 1.75 | xht 倍增器 |
文本记录平移分数 | 0.02 | 四边形行距的分数 |
文本记录分割离群分数 | 0.1 | 离群值的行距分数 |
textord_skew_ile | 0.5 | 页面倾斜的梯度 |
textord_skew_lag | 0.02 | 行累积偏斜滞后 |
textord_linespace_iqrlimit | 0.2 | 线路空间的最大 iqr/中值 |
文本字宽限制 | 8 | 行的最大宽度 |
textord_chop_width | 1.5 | 切割前最大宽度 |
文本记录扩展因子 | 1 | 在 expand_rows 中按系数扩展行 |
textord_overlap_x | 0.375 | 良好重叠的行间距比例 |
textord_minxh | 0.25 | 最小 x 高度的行距分数 |
textord_min_linesize | 1.25 | * 初始行大小的 blob 高度 |
textord_excess_blobsize | 1.3 | 如果 Blob 使行列变得如此之大,则新建一行 |
文本记录占用阈值 | 0.4 | 邻里比例 |
下划线宽度 | 2 | 下划线的行尺寸倍数 |
textord_min_blob_height_fraction | 0.75 | 最小 blob 高度/顶部,以便将 blob 顶部纳入 xheight 统计中 |
textord_xheight_mode_fraction | 0.4 | 最小堆高 x 高度 |
textord_ascheight_mode_fraction | 0.08 | 最小堆高 |
textord_descheight_mode_fraction | 0.08 | 最小堆高,以便降低高度 |
textord_ascx_ratio_min | 1.25 | 最小上限/x 高度 |
textord_ascx_ratio_max | 1.8 | 最大上限/高度 |
textord_descx_ratio_min | 0.25 | 最小描述/高度 |
textord_descx_ratio_max | 0.6 | 最大描述/高度 |
textord_xheight_error_margin | 0.1 | 接受变化 |
oldbl_xhfract | 0.4 | 计算中允许的 est 分数 |
oldbl_dot_error_size | 1.26 | 点的最大长宽比 |
textord_oldbl_jumplimit | 0.15 | 新分区的 X 分数 |
pitsync_joined_edge | 0.75 | 分布在大圆球内,以便切碎 |
pitsync_offset_freecut_fraction | 0.25 | 自由切割的切割比例 |
textord_tabvector_vertical_gap_fraction | 0.5 | 竖排文字中的垂直间隙所允许的平均 Blob 宽度的最大分数 |
textord_tabvector_vertical_box_ratio | 0.5 | 宣布一条直线垂直所需的火柴盒火柴数 |
textord_projection_scale | 0.2 | 中段剪切的定型率 |
平衡因子 | 1 | 不平衡炭化电池的定值率 |
textord_wordstats_smooth_factor | 0.05 | 平滑差距统计 |
textord_width_smooth_factor | 0.1 | 平滑宽度统计 |
textord_words_width_ile | 0.4 | 空间 est 的球状体宽度列表 |
textord_words_maxspace | 4 | x 高度的倍数 |
textord_words_default_maxspace | 3.5 | 最可信的第三空间 |
textord_words_default_minspace | 0.6 | xheight 的分数 |
textord_words_min_minspace | 0.3 | xheight 的分数 |
textord_words_default_nonspace(默认空格 | 0.2 | xheight 的分数 |
textord_words_initial_lower | 0.25 | 最大初始集群规模 |
textord_词首上部 | 0.15 | 最小初始群集间距 |
textord_words_minlarge | 0.75 | 所需的有效间隙比例 |
textord_words_pitchsd_threshold | 0.04 | 音高同步阈值 |
textord_words_def_fixed | 0.016 | 明确固定的阈值 |
textord_words_def_prop | 0.09 | 确定道具的阈值 |
textord_pitch_rowsimilarity | 0.08 | xheight 的分数 for sameness |
words_initial_lower | 0.5 | 最大初始集群规模 |
词首上部 | 0.15 | 最小初始群集间距 |
words_default_prop_nonspace | 0.25 | xheight 的分数 |
words_default_fixed_space | 0.75 | xheight 的分数 |
默认字数限制 | 0.6 | 允许的尺寸差异 |
textord_words_definite_spread(单词定义扩展 | 0.3 | 非模糊间隔区域 |
textord_spacesize_ratiofp | 2.8 | 空间/非空间最小比率 |
textord_spacesize_ratioprop | 2 | 空间/非空间最小比率 |
textord_fpiqr_ratio | 1.5 | 间距 IQR/间隙 IQR 阈值 |
textord_max_pitch_iqr | 0.2 | Xh 分辨率噪声 |
textord_fp_min_width | 0.5 | 像样球体的最小宽度 |
textord_underline_offset | 0.1 | 忽略 x 的分数 |
调试级别 | 0 | 单字符模糊调试级别 |
分类调试级别 | 0 | 划分调试级别 |
正态分类方法 | 1 | 归一化方法 ... |
matcher_debug_level | 0 | 匹配器调试级别 |
matcher_debug_flags | 0 | 匹配器调试标志 |
分类学习调试级别 | 0 | 学习调试级别: |
matcher_permanent_classes_min | 1 | 最少常设班级数 |
matcher_min_examples_for_ 原型开发 | 3 | 可靠配置阈值 |
matcher_sufficient_examples_ 用于原型设计 | 5 | 即使未发现歧义,也能进行调整 |
分类适应阈值 | 230 | 自适应期间良好原态的阈值 0-255 |
分类适应特征阈值 | 230 | 自适应期间良好特征的阈值 0-255 |
分类阈值 | 229 | 等级修剪器阈值 0-255 |
分类分枝倍增器 | 15 | 等级修剪器乘数 0-255: |
强度分类 | 7 | 类剪枝剪强度: |
整数调制器倍增器分类 | 10 | 整数匹配器乘法器 0-255: |
dawg_debug_level | 0 | 设置为 1 可查看一般调试信息,设置为 2 可查看更多细节,设置为 3 可查看所有调试信息 |
hyphen_debug_level | 0 | 连字符的调试级别。 |
小字体大小 | 2 | 作为非独占词处理的独占词大小 |
stopper_debug_level | 0 | 停止器调试级别 |
tessedit_truncate_wordchoice_log | 10 | 列表中保留的最大字数 |
max_permuter_attempts | 10000 | 在排列过程中要考虑的不同字符选择的最大数量。这个限制在指定用户模式时特别有用,因为过于通用的模式会导致 dawg 搜索探索过多的选项。 |
修复被撞坏的球体 | 1 | 修复未切碎的 Blobs |
chop_debug | 0 | 斩波调试 |
chop_split_length | 10000 | 分割长度 |
相同距离 | 2 | 相同距离 |
chop_min_outline_points | 6 | 大纲上的最小点数 |
切缝堆叠尺寸 | 150 | 接缝堆中的最大接缝数 |
内切角 | -50 | 最小内角弯曲 |
chop_min_outline_area | 2000 | 最小轮廓面积 |
以切线为中心的最大宽度 | 90 | 较小碎块的宽度,在此宽度之上,我们不考虑碎块是否靠近中心。 |
chop_x_y_weight | 3 | X / Y 长度 重量 |
wordrec_debug_level | 0 | wordrec 的调试级别 |
wordrec_max_join_chunks | 4 | 关联的最大破碎件数 |
segsearch_debug_level | 0 | SegSearch 调试级别 |
最大搜索痛苦点数 | 2000 | 队列中存储的痛点的最大数量 |
最大搜索有用分类 | 20 | 每个大块中没有找到更好词语的痛点分类的最大数量。 |
语言模型调试级别 | 0 | 语言模型调试级别 |
语言模型语序 | 8 | 字符语法模型的最大阶数 |
语言模型维特比列表 max_num_prunable | 10 | 可修剪的最大数量 (PrunablePath() 为真) entries in each viterbi list recorded in BLOB_CHOICEs |
语言模型维特比 list_max_size | 500 | BLOB_CHOICE 中记录的 viterbi 列表的最大大小 |
语言模型最小复合长度 | 3 | 复合词的最小长度 |
wordrec_display_segmentations | 0 | 显示细分 |
tessedit_pageseg_mode | 6 | 分页模式:0=osd only, 1=auto+osd, 2=auto_only, 3=auto, 4=column, 5=block_vert, 6=block, 7=line, 8=word, 9=word_circle, 10=char,11=sparse_text, 12=sparse_text+osd, 13=raw_line (取自 tesseract/publictypes.h 中 PageSegMode 枚举的值) |
tessedit_ocr_engine_mode | 2 | 要运行的 OCR 引擎(Tesseract、LSTM 或两者)。默认加载并运行最精确的可用引擎。 |
pageseg_devanagari_split_strategy | 0 | 在进行页面分割时,是否对 Devanagari 文档使用顶行分割流程。 |
OCR_DEVANAGARI_Split_Strategy | 0 | 在执行 OCR 时,是否对 Devanagari 文档使用顶行分割程序。 |
调试 | 0 | BiDi 调试级别 |
applybox_debug | 1 | 调试级别 |
applybox_page | 0 | 应用方框的页码 |
tessedit_bigram_debug | 0 | 大字符校正的调试输出量。 |
删除调试噪音 | 0 | 调试小轮廓的重新分配 |
噪声 | 8 | 应用于 Blob 的最大变音符数 |
噪音干扰词 | 16 | 适用于单词的最大变音符数 |
debug_x_ht_level | 0 | 重新估计调试 |
quality_min_initial_alphas_reqd | 2 | 好字当头 |
tessedit_tess_adaption_mode | 39 | 苔丝的适应性决策算法 |
multilang_debug_level | 0 | 打印 multilang 调试信息。 |
段落调试级别 | 0 | 打印段落调试信息。 |
tessedit_preserve_min_wd_len | 2 | 只保存比这更长的纬度 |
评分上限 | 10 | 按每 ch 额定值计算的长度 |
锅底紧缩指标 | 1 | 需要多少潜在指标 |
crunch_leave_lc_strings | 4 | 不要压缩小写字符串较长的单词 |
crunch_leave_uc_strings | 4 | 不要压缩小写字符串较长的单词 |
长时间重复 | 3 | 长时间重复的单词 |
crunch_debug | 0 | 如其所言 |
fixsp_non_noise_limit | 1 | 两侧有多少个无噪音蓝牙? |
fixsp_done_mode | 1 | 间距的构成 |
调试修复空间级别 | 0 | 上下文固定空间调试 |
x_ht_acceptance_tolerance | 8 | 字体数据外 blob 顶部的最大允许偏差 |
x_ht_min_change | 8 | 在实际尝试之前,xht 的最小变化量 |
上标调试 | 0 | 调试级别 for sub & superscript fixer |
jpg_quality | 85 | 设置 JPEG 质量级别 |
用户定义的 dpi | 0 | 指定输入图像的 DPI |
最小尝试字符数 | 50 | 指定 OSD 期间尝试的最小字符数 |
suspect_level | 99 | 可疑标记水平 |
可疑短语 | 2 | 不要怀疑口述密码比这更长 |
剔除模式 | 0 | 剔除算法 |
图片边框 | 2 | 图像边缘限值附近的 Rej Blbs |
最小值_sane_x_ht_pixels | 8 | 拒绝任何 x-ht lt 或 eq |
页码 | -1 | -1 -> 所有页面,否则处理特定页面 |
并行化 | 1 | 尽可能并行运行 |
lstm_choice_mode | 2 | 允许在 hOCR 输出中包含备选符号选项。有效输入值为 0、1 和 2。0 为默认值。输入 1 时,将包含每个时间步的备选符号选择。输入 2 时,将从 CTC 进程而非网格中提取备选符号选项。选择按字符映射。 |
lstm_choice_iterations | 5 | 设置 lstm_choice_mode 中 Beamsearch 的级联迭代次数。请注意,lstm_choice_mode 的值必须大于 0 才能产生结果。 |
tosp_debug_level | 0 | 调试数据 |
TSP_enough_space_samples_for_median | 3 | 还是应该使用平均值 |
tosp_redo_kern_limit | 10 | 重新估计行所需样本数 |
tosp_few_samples | 40 | 需要的间隙数,有 1 个大间隙可作为表格处理 |
短行 | 20 | 无间隙,使用证书时需要的证书空格很少 |
方法 | 1 | 如何避免愚蠢 |
textord_max_noise_size | 7 | 噪音的像素大小 |
textord_baseline_debug | 0 | 基准调试级别 |
textord_noise_sizefraction | 10 | 最大值的尺寸比例 |
噪声限值 | 16 | 正常球体的过渡 |
文本记录噪音计数 | 1 | 超级标准 Blobs 保存行 |
使用自适应ambigs | 0 | 使用 ambigs 来决定是否适应角色 |
允许球体分割 | 1 | 使用可分割的小块切碎 |
优先分区 | 0 | 分块优先于切块 |
分类_启用_学习 | 1 | 启用自适应分类器 |
tess_cn_matching | 0 | 特征归一化匹配 |
tess_bn_matching | 0 | 基准归一化匹配 |
分类_启用自适应捕获器 | 1 | 启用自适应分类器 |
分类使用预适配模板 | 0 | 使用预适应分类器模板 |
分类保存改编模板 | 0 | 将改编过的模板保存到文件中 |
分类启用自适应调试器 | 0 | 启用匹配调试器 |
非线性正态分类 | 0 | 非线性中风密度归一化 |
禁用字符碎片 | 1 | 分类结果中不包含字符片段 |
字符碎片分类 | 0 | 调出图形调试窗口进行片段训练 |
matcher_debug_separate_windows | 0 | 使用两个不同的窗口进行匹配调试:一个用于原型,另一个用于功能。 |
分类数值模式 | 0 | 假设输入为数字 [0-9]。 |
加载系统 | 1 | 装载系统单词 |
加载频率 | 1 | 加载频繁的单词 |
load_unambig_dawg | 1 | 加载毫不含糊的单词 "Dawg"。 |
load_punc_dawg | 1 | 用标点符号模式加载 dawg。 |
装载数量 | 1 | 用数字模式装载小家伙 |
加载大图 | 1 | 给 dawg 装上特殊的单词大法。 |
仅使用第一个步骤 | 0 | 计算对数概率时,只使用给定字符串的第一个 UTF8 阶。 |
停止不接受的选择 | 0 | 使 AcceptableChoice() 始终返回 false。在需要探索所有分段时非常有用 |
黑体脚本分段 | 0 | 不要使用任何针对字母的技巧。在 traineddata 配置文件中将草书或固有固定间距的脚本设为 true |
保存文档字词 | 0 | 保存文件字数 |
合并矩阵中的碎片 | 1 | 合并评级矩阵中的片段,并在合并后删除它们 |
wordrec_enable_assoc | 1 | 启用关联器 |
force_word_assoc | 0 | 强制关联程序运行,无论 enable_assoc 为何。这用于需要对组件进行分组的中日韩语言。 |
chop_enable | 1 | 启用斩波器 |
垂直匍匐 | 0 | 垂直蠕变 |
切削新缝合线 | 1 | 使用新的 seam_pile |
假定固定间距字符段 | 0 | 在字符分段中加入固定音高启发法 |
wordrec_skip_no_truth_words(忽略不实词语 | 0 | 只对 BlamerBundle 中已记录真相的单词运行 OCR |
调试器 | 0 | 打印 Blamer 调试信息 |
wordrec_run_blamer | 0 | 尝试将错误归咎于他人 |
保存选项 | 1 | 保存在切分和分割搜索过程中发现的备选路径 |
语言模型负词表 | 0 | 打开/关闭字符语法模型的使用 |
语言模型的语法使用 only_first_uft8_step | 0 | 计算对数概率时,只使用给定字符串的第一个 UTF8 阶。 |
语言模型语法空间 语言 | 1 | 单词用空格分隔 |
语言模型使用西格码确定性 | 0 | 使用西格玛评分来确定性 |
从方框重新分段 | 0 | 从盒式文件中提取分段和标签 |
tessedit_resegment_from_line_boxes | 0 | 将单词/行方框文件转换为字符方框文件 |
tessedit_train_from_boxes | 0 | 从方框字符中生成训练数据 |
tessedit_make_boxes_from_boxes | 0 | 从方框字符中生成更多方框 |
tessedit_train_line_recognizer | 0 | 将输入内容分行,并重新映射方框(如果有的话 |
tessedit_dump_pageseg_images | 0 | 转存页面分割过程中生成的中间图像 |
tessedit_doo_invert | 1 | 尝试在 `LSTMRecognizeWord` 中反转图像 |
tessedit_ambigs_training | 0 | 进行模糊培训 |
tessedit_adaption_debug | 0 | 生成并打印适应性调试信息 |
applybox_learn_chars_and_char_frags_mode | 0 | 既可学习字符片段(如在特殊的低曝光模式下),也可学习未片段字符。 |
applybox_learn_ngrams_mode | 0 | 假设每个边界框都包含 ngrams。只学习其轮廓在水平方向上重叠的 ngram。 |
tessedit_display_outwords | 0 | 绘制输出字 |
tessedit_dump_choices | 0 | 转存字符选择 |
tessedit_timing_debug | 0 | 打印计时统计 |
tessedit_fix_fuzzy_spaces | 1 | 尝试改善模糊空间 |
tessedit_unrej_any_wd | 0 | 不要纠结于词语的合理性 |
修正hyphens | 1 | 压缩双连字符? |
tessedit_enable_doc_dict | 1 | 在文档字典中添加单词 |
tessedit_debug_fonts | 0 | 按字符输出字体信息 |
tessedit_debug_block_rejection | 0 | 块和行统计 |
tessedit_enable_bigram_correction | 1 | 启用基于单词大词词典的校正功能。 |
tessedit_enable_dict_correction | 0 | 启用基于词典的单词修正功能。 |
启用噪音消除功能 | 1 | 当小轮廓混淆布局分析时,可将其移除并有条件地重新分配,确定变音与噪声 |
tessedit_minimal_rej_pass1 | 0 | 对通过 1 的输出进行最小限度的剔除 |
tessedit_test_adaption | 0 | 测试适应标准 |
test_pt | 0 | 测试点 |
基于文本的段落 | 1 | 在文本识别后运行段落检测(更准确) |
lstm_use_matrix | 1 | 使用 lstm 进行评级矩阵/光束搜索 |
质量上乘的无缝钢管 | 1 | 减少对优秀文档的拒绝 |
使用剔除空间 | 1 | 拒绝空格? |
tessedit_preserve_blk_rej_perfect_wds | 1 | 在区块剔除中只剔除部分被剔除的字词 |
tessedit_preserve_row_rej_perfect_wds | 1 | 在拒绝行中只拒绝部分被拒绝的词语 |
tessedit_dont_blkrej_good_wds | 0 | 使用分词质量指标 |
tessedit_dont_rowrej_good_wds | 0 | 使用分词质量指标 |
tessedit_row_rej_good_docs | 1 | 对优秀文档实行行拒绝 |
tessedit_reject_bad_qual_wds | 1 | 剔除所有质量差的数据包 |
tessedit_debug_doc_rejection | 0 | 页面统计 |
tessedit_debug_quality_metrics | 0 | 向调试文件输出数据 |
Bland_unrej | 0 | 无检查的无潜力 |
unlv_tilde_crunching(压缩) | 0 | 标记 V.不好的字,表示 tilde crunch |
字体信息 | 0 | 为 hocr 输出添加字体信息 |
字符框 | 0 | 为 hocr 输出添加每个字符的坐标 |
Crunch_early_merge_tess_fails | 1 | 在词语紧缩之前? |
crunch_early_convert_bad_unlv_chs | 0 | 提前取出 ~^? |
嘎吱嘎吱的可怕垃圾 | 1 | 如其所言 |
crunch_leave_ok_strings | 1 | 不要触碰理智的琴弦 |
紧缩_接受_确定 | 1 | 在 okstring 中使用可接受性 |
crunch_leave_accept_strings | 0 | 不要拧断理智的琴弦 |
紧缩包含数值 | 0 | 小提琴阿尔法数字 |
tessedit_prefer_joined_punct | 0 | 奖励加入标点符号 |
tessedit_write_block_separators | 0 | 在输出中写入块分隔符 |
tessedit_write_rep_codes | 0 | 编写重复字符代码 |
tessedit_write_unlv | 0 | 写入 .unlv 输出文件 |
tessedit_create_txt | 0 | 写入 .txt 输出文件 |
"创造 "系统 | 0 | 编写 .html hOCR 输出文件 |
创建阿尔托 | 0 | 编写 .xml ALTO 文件 |
tessedit_create_lstmbox | 0 | 为 LSTM 训练编写 .box 文件 |
tessedit_create_tsv | 0 | 写入 .tsv 输出文件 |
tessedit_create_wordstrbox | 0 | 写入 WordStr 格式的 .box 输出文件 |
tessedit_create_pdf | 0 | 编写 .pdf 输出文件 |
纯文字 PDF | 0 | 只创建一个不可见文本层的 PDF |
疑似应力_1Il | 0 | UNLV 保留 1Il 字符被拒绝 |
最低拒绝率 | 0 | 只拒绝苔丝的失败 |
零拒绝 | 0 | 不要拒绝任何东西 |
word_for_word(逐字翻译 | 0 | 使每个 WERD 的输出精确到一个字 |
tessedit_zero_kelvin_rejection | 0 | 不要拒绝任何东西 AT ALL |
tessedit_rejection_debug | 0 | 适应性调试 |
tessedit_flip_0O | 1 | 上下文 0O O0 翻转 |
信任文档 | 0 | 在 11l confector 中使用 DOC dawg。 |
rej_1Il_use_dict_word | 0 | 使用听写测试 |
rej_1Il_trust_permuter_type | 1 | 不要重复检查 |
rej_use_tess_accepted | 1 | 个人拒绝控制 |
rej_use_tess_blanks | 1 | 个人拒绝控制 |
使用良好参数 | 1 | 个人拒绝控制 |
使用合情合理的数据包 | 0 | 扩展许可证检查 |
rej_alphas_in_number_perm(按次数计算的失语症患者人数 | 0 | 扩展许可证检查 |
tessedit_create_boxfile | 0 | 输出带方框的文本 |
tessedit_write_images | 0 | 从 IPE 捕捉图像 |
交互式显示模式 | 0 | 交互式运行? |
超限器 | 1 | 根据 dict_word |
tessedit_use_primary_params_model | 0 | 在多语言模式下,使用主要语言的参数模型 |
textord_tabfind_show_vlines | 0 | 查找调试线 |
textord_use_cjk_fp_model | 0 | 使用中日韩固定音高模式 |
poly_allow_detailed_fx | 0 | 允许特征提取器查看原始轮廓 |
tessedit_init_config_only | 0 | 仅使用配置文件初始化。如果该实例不用于 OCR,而仅用于布局分析,则非常有用。 |
检测公式 | 0 | 打开方程检测器 |
textord_tabfind_vertical_text | 1 | 启用垂直检测 |
textord_tabfind_force_vertical_text | 0 | 强制使用垂直文本页面模式 |
保留词间空格 | 0 | 保留多个字间空格 |
pageseg_apply_music_mask | 1 | 检测五线谱并移除相交部分 |
textord_single_height_mode | 0 | 脚本没有 x 高度,因此使用单一模式 |
tosp_old_too_method | 0 | 空间统计使用预切碎? |
到sp_old_to_constrain_sp_kn | 0 | 限制 old_too_method 的词间间隙和词内间隙的相对值。 |
tosp_only_use_prop_rows | 1 | 使用固定间距行的块统计? |
tosp_force_wordbreak_on_punct | 0 | 在标点符号上强制分词,以分隔非空格分隔语言中的长行 |
tosp_use_pre_chopping | 0 | 空间统计使用预切碎? |
tosp_old_too_bug_fix | 0 | 修复旧代码中的疑似错误 |
tosp_block_use_cert_spaces | 1 | 只统计明显的空格 |
tosp_row_use_cert_spaces | 1 | 只统计明显的空格 |
tsp_narrow_blobs_not_cert | 1 | 只统计明显的空格 |
tosp_row_use_cert_spaces1 | 1 | 只统计明显的空格 |
恢复隔离行统计 | 1 | 当证书空间不足时,可单独使用行 |
仅为内核提供小间隙 | 0 | 更好的猜测 |
全部翻转_模糊 | 0 | 通过 ANY 翻转到上下文? |
tosp_fuzzy_limit_all | 1 | 不要将 kn->sp 模糊限制局限于表格 |
tosp_stats_use_xht_gaps | 1 | 在 xht 间隙内使用 WD 断点 |
tosp_use_xht_gaps | 1 | 在 xht 间隙内使用 WD 断点 |
仅使用 xht_gaps | 0 | 仅在 xht 间隙内使用,用于 wd 断点 |
第 9 条规则测试标点符号 | 0 | 不要在标点符号旁边的空格中chng kn |
向空间翻转_fuzz_kn_to_sp | 1 | 默认翻转 |
TSP_FLIP_FUZZ_SP_TO_KN | 1 | 默认翻转 |
改进阈值 | 0 | 启用改进启发式 |
textord_noo_rejects | 0 | 不要删除噪点 |
textord_show_blobs | 0 | 显示未分类的 Blob |
textord_show_boxes | 0 | 显示未分类的 Blob |
textord_noise_rejwords | 1 | 拒绝噪音类词语 |
文本ord_noise_rejrows | 1 | 拒绝噪音行 |
textord_noise_debug | 0 | 调试行垃圾检测器 |
classify_learn_debug_str | 调试学习的班级 str | |
user_words_file | 用户提供的单词文件名。 | |
用户词缀 | 用户提供的位于 tessdata 中的单词后缀。 | |
用户模式文件 | 用户提供的模式文件名。 | |
user_patterns_suffix | 用户提供的位于 tessdata 中的模式的后缀。 | |
输出ambig_words_file | 在词典中发现歧义的输出文件 | |
word_to_debug | 应将停止符调试信息打印到 stdout 的字 | |
字符黑名单 | 不识别字符的黑名单 | |
tessedit_char_whitelist | 要识别的字符白名单 | |
tessedit_char_unblacklist | List of chars to override 字符黑名单 | |
tessedit_write_params_to_file | 将所有参数写入给定文件。 | |
applybox_exposure_pattern | .exp | 曝光值在图像文件名中遵循这种模式。图像文件名应为 [lang].[fontname].exp[num].tif。 |
chs_leading_punct ('`" | 前导标点符号 | |
chs_trailing_punct1 | ).,;:?! | 第 1 个尾部标点符号 |
chs_trailing_punct2 )'`" | 第 2 个尾部标点符号 | |
大纲_多德 | % | 非标准大纲数量 |
outlines_2 ij!?%":; | 非标准大纲数量 | |
数字标点符号 | ., | 数字内应包含的标点符号章节 |
未识别字符 | 未识别 Blob 的输出字符 | |
ok_repeated_ch_non_alphanum_wds | -?*= | 允许 NN 取消 |
冲突设置_I_l_1 | Il1 [] | Il1 冲突集 |
文件类型 | .tif | 文件扩展名 |
tessedit_load_sublangs | 与此语言一起加载的语言列表 | |
分页符 | 分页符(默认为换页控制字符) | |
字符范围分类 | 0.2 | 字符归一化范围 ... |
最大分级比率 | 1.5 | 分类器评级之间的否决率 |
分类最大确定性边际值 | 5.5 | 分类器确定性之间的差异 |
阈值匹配器 | 0.125 | 精彩比赛 (0-1) |
可靠的自适应结果 | 0 | 伟大的比赛 (0-1) |
完美阈值 | 0.02 | 完美匹配 (0-1) |
Matcher_bad_match_pad | 0.15 | 坏火柴垫(0-1) |
边距 | 0.1 | 新模板边距 (0-1) |
matcher_avg_noise_size | 12 | 平均噪点长度 |
matcher_clustering_max_angle_delta | 0.015 | 原型聚类的最大三角角 |
对垃圾罚款进行分类 | 0 | 当非数字垂直偏离其预期文本行位置时的惩罚措施 |
等级 | 1.5 | 等级缩放系数 |
确定性标度 | 20 | 确定性比例系数 |
()()()()()() | 0.00390625 | 未使用特征的比例系数 |
分类适应剪枝因子 | 2.5 | 修剪适应性差的结果,这比最佳结果要差得多 |
分类适应剪枝阈值 | -1 | Threshold at which 分类适应剪枝因子 starts |
将字符碎片分类 垃圾确定性阈值 | -3 | 将不像完整字符的片段排除在训练和改编之外 |
斑点最大尺寸 | 0.3 | 最大大斑点尺寸 |
斑点评级惩罚 | 10 | 噪音最差等级加罚 |
xheight_penalty_subscripts | 0.125 | 如果单词中有下标或上标,则加分(0.1 = 10%),但其他方面没有问题。 |
xheight_penalty_inconsistent | 0.25 | 如果 x 高度不一致,会增加分数惩罚(0.1 = 10%)。 |
分段罚则常用字 | 1 | 单词匹配的得分乘数,这些单词在指定语言中具有较好的大小写且频繁出现(越低越好)。 |
分段处罚决定书(segment_penalty_dict_case_ok | 1.1 | 大小写匹配的单词得分乘数(越低越好)。 |
不良处罚分段 | 1.3125 | 单词匹配的默认分数乘数,可能会有大小写问题(越低越好)。 |
段落_惩罚_dict_nonword | 1.25 | 与字典单词不匹配的字形片段分割的得分乘数(越低越好)。 |
垃圾分段惩罚 | 1.5 | 针对不在字典中且通常看起来像垃圾的劣质字符串的得分乘数(越低越好)。 |
确定性标度 | 20 | 确定性比例系数 |
停顿_不确定_基数 | -2.5 | 非词汇的确定性阈值 |
停止计时器第 2 阶段的确定性拒绝偏移量 | 1 | 拒绝确定性抵消 |
每个字符的塞子确定性 | -0.5 | 确定为小字以上的每个字符添加。 |
制止可容许的不良行为 | 3 | 单词中允许的最大变化量(单位:西格玛) |
doc_dict_pending_threshold | 0 | 使用待处理字典的最差确定性 |
doc_dict_certainty_threshold | -2.25 | 可插入文档字典的单词的最差确定性 |
确定性阈值 | -2.25 | 好球限制 |
chop_split_dist_knob | 0.5 | 分割长度调整 |
chop_overlap_knob | 0.9 | 分割重叠调整 |
切削中心旋钮 | 0.15 | 分割中心调整 |
切削锐度旋钮 | 0.06 | 分割锐度调整 |
切变宽度旋钮 | 5 | 宽度变化调节 |
chop_ok_split | 100 | 确定分割限值 |
chop_good_split | 50 | 良好的分割限制 |
segsearch_max_char_wh_ratio | 2 | 最大字符宽高比 |