适用于 Tesseract 5 的 C# 自定义字体训练（适用于 Windows 用户）

坎那帕·乌东攀

2023年三月5日

更新 2024年十二月10日

Translated

View the article in English

使用Tesseract 5自定义字体训练来提高OCR引擎在处理可能默认不支持的特定字体或字体样式时的准确性和识别能力。

该过程包括为Tesseract提供训练数据，比如字体样本和相应的文本，以便它能学习自定义字体的特定特性和模式。

开始使用IronOCR

立即在您的项目中开始使用IronOCR，并享受免费试用。

第一步：

如何在 C# 中使用 Tesseract 自定义字体

下载一个C#库以使用Tesseract训练自定义字体
准备用于培训的目标字体文件
按照文章中规定的步骤操作
包含常见错误的解决方案
导出训练好的数据文件，以便进一步使用

步骤1：下载最新版本的IronOCR

通过 DLL 安装

直接下载 IronOcr DLL 到您的计算机。

通过 NuGet 安装

或者，您可以通过 NuGet 安装。

Install-Package IronOcr

步骤 2：安装和设置 WSL2 和 Ubuntu

这里是设置WSL2和Ubuntu的教程。目前，自定义字体训练只能在Linux上进行。

步骤 3：在 Ubuntu 上安装魔方 5

sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

SHELL

步骤 4：下载您想要训练的字体

我们在本教程中使用AMGDT字体。字体文件可以是.ttf或.otf格式 Example Of Downloaded Font File related to 步骤 4：下载您想要训练的字体

步骤5：为自定义字体训练挂载工作区的磁盘驱动器

以下命令说明如何将驱动器D:挂载为工作空间。

cd /
cd /mnt/d

cd /
cd /mnt/d

SHELL

步骤6：将字体文件复制到Ubuntu字体文件夹

这是Ubuntu字体文件夹目录； Ubuntu/usr/share/fonts 和 Ubuntu/usr/local/share/fonts。

** 要在 Ubuntu 上访问文件，请在文件资源管理器目录中键入 \\\wsl$

Ubutu Folder Directory related to 步骤6：将字体文件复制到Ubuntu字体文件夹

故障排除：目标文件夹访问被拒绝

Destination Folder Access Denied related to 故障排除：目标文件夹访问被拒绝

此问题可以通过使用命令行复制文件来解决。

cd /
su root
cd c/Users/Admin/Downloads/’AMGDT Regular’
cp ‘AMGDT Regular.ttf’ /usr/share/fonts
cp ‘AMGDT Regular.ttf’ /usr/local/share/fonts
su username

cd /
su root
cd c/Users/Admin/Downloads/’AMGDT Regular’
cp ‘AMGDT Regular.ttf’ /usr/share/fonts
cp ‘AMGDT Regular.ttf’ /usr/local/share/fonts
su username

SHELL

步骤7：从Github克隆tesseract_tutorial

可以从以下网址克隆tesseract_tutorial存储库；通过使用以下命令：https://github.com/astutejoe/tesseract_tutorial.git

git clone https://github.com/astutejoe/tesseract_tutorial.git

git clone https://github.com/astutejoe/tesseract_tutorial.git

SHELL

步骤 8：从Github克隆tesstrain和tesseract

进入tesseract_tutorial文件夹目录，然后git clone https://github.com/tesseract-ocr/tesstrain 和 https://github.com/tesseract-ocr/tesseract

tesstrain 包含 “Makefile” 文件，该文件用于创建 .traineddata 文件（本教程的目标）
tesseract 包含 "tessdata" 文件夹，它是一个原始 .traindata 文件的容器，用作自定义字体训练的参考

步骤 9：创建“data”文件夹以存储输出

“data” 应创建在 tesseract_tutorial/tesstrain。

步骤 10：运行 split_training_text.py

返回到tesseract_tutorial文件夹目录，然后编译以下命令；

python split_training_text.py

python split_training_text.py

SHELL

运行split_training_text.py后，它将在“data”文件夹中创建.box和.tif文件。

疑难解答：Fontconfig 警告：“/tmp/fonts.conf，第 4 行：忽略空字体目录名称”

Fontconfig Warning related to 疑难解答：Fontconfig 警告：“/tmp/fonts.conf，第 4 行：忽略空字体目录�...

此问题是由于无法找到 Ubuntu 文件夹中的字体目录引起的，可以通过在tesseract_tutorial/fonts.conf中插入这些代码行来解决。

Fontconfig Dir Png related to 疑难解答：Fontconfig 警告：“/tmp/fonts.conf，第 4 行：忽略空字体目录�...

和

<dir>/usr/share/字体</dir>
<dir>/usr/local/share/字体</dir>
<dir prefix="xdg">字体</dir>
<!-- the following element will be removed in the future -->
<dir>~/.字体</dir>

然后将其复制到/etc/fonts

cp fonts.conf /etc/fonts

cp fonts.conf /etc/fonts

SHELL

最后，将这些代码行添加到split_training_text.py

Fontconfig Sol related to 疑难解答：Fontconfig 警告：“/tmp/fonts.conf，第 4 行：忽略空字体目录名称”

和


fontconf_dir = '/etc/fonts'

注意：训练文件（.box 和 .tif）的数量

目前训练文件的数量为100。可以通过编辑或删除 split_training_text.py 中的代码行来调整训练文件的数量。

Number Of Trainfile related to 注意：训练文件（.box 和 .tif）的数量

步骤11：下载 eng.traineddata

eng.traineddata 可以通过以下网址找到：https://github.com/tesseract-ocr/tessdata_best. 将其下载到 tesseract_tutorial/tesseract/tessdata 因为 tessdata_best 中的 eng.traineddata 优于 tessdata 文件夹中的原始版本。

步骤12：创建你的自定义字体.traineddata

进入tesstrain文件夹目录，并在WSL2中输入此命令行


TESSDATA_PREFIX=../tesseract/tessdata make training MODEL_NAME=AMGDT START_MODEL=eng TESSDATA=../tesseract/tessdata MAX_ITERATIONS=100

在tesstrain/Makefile中运行代码以进行训练
MODEL_NAME = 您自定义字体的名称
START_MODEL = 原始.traineddata的名称
MAX_ITERATIONS = 迭代次数（数字越大意味着.traineddata越准确）

通过编辑Makefile中的代码行可以解决“Failed to read data from:”的问题

之前：

Makefile Sol Before related to 通过编辑Makefile中的代码行可以解决“Failed to read data from:”的问题

After:

Makefile Sol After related to 通过编辑Makefile中的代码行可以解决“Failed to read data from:”的问题

和

make - Makefile
WORDLIST_FILE := $(OUTPUT_DIR2)/$(MODEL_NAME).lstm-word-dawg
NUMBERS_FILE := $(OUTPUT_DIR2)/$(MODEL_NAME).lstm-number-dawg
PUNC_FILE := $(OUTPUT_DIR2)/$(MODEL_NAME).lstm-punc-dawg

make - Makefile
WORDLIST_FILE := $(OUTPUT_DIR2)/$(MODEL_NAME).lstm-word-dawg
NUMBERS_FILE := $(OUTPUT_DIR2)/$(MODEL_NAME).lstm-number-dawg
PUNC_FILE := $(OUTPUT_DIR2)/$(MODEL_NAME).lstm-punc-dawg

SHELL

通过将`Latin.unicharset`插入到`tesstrain/data/langdata`文件夹中可以解决“无法从:data/langdata/Latin.unicharset加载脚本unicharset”的问题

Latin.unicharset 可以在以下网址找到； https://github.com/tesseract-ocr/langdata_lstm

步骤13：创建的`.traineddata`的准确性

通过使用1000个.box和.tif文件以及3000次训练迭代，输出.traineddta（AMGDT.traineddata）具有大约5.77的最低训练错误率（BCER）。

Traineddata Accuracy related to 步骤13：创建的.traineddata的准确性

更多阅读和参考：参考：https://www.youtube.com/watch?v=KE4xEzFGSU8ustom

坎那帕·乌东攀

立即与工程团队聊天

软件工程师

在成为软件工程师之前，Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间，Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年，他利用自己的 C# 技能加入了 Iron Software 的工程团队，专注于 IronPDF。Kannapat 珍视他的工作，因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习，Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时，Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。

在此页面上

适用于 Tesseract 5 的 C# 自定义字体训练（适用于 Windows 用户）

开始使用IronOCR

如何在 C# 中使用 Tesseract 自定义字体

步骤1：下载最新版本的IronOCR

通过 DLL 安装

通过 NuGet 安装

步骤 2：安装和设置 WSL2 和 Ubuntu

步骤 3：在 Ubuntu 上安装魔方 5

步骤 4：下载您想要训练的字体

步骤5：为自定义字体训练挂载工作区的磁盘驱动器

步骤6：将字体文件复制到Ubuntu字体文件夹

故障排除：目标文件夹访问被拒绝

步骤7：从Github克隆tesseract_tutorial

步骤 8：从Github克隆tesstrain和tesseract

步骤 9：创建“data”文件夹以存储输出

步骤 10：运行 split_training_text.py

疑难解答：Fontconfig 警告：“/tmp/fonts.conf，第 4 行：忽略空字体目录名称”

注意：训练文件（.box 和 .tif）的数量

步骤11：下载 eng.traineddata

步骤12：创建你的自定义字体.traineddata

通过编辑Makefile中的代码行可以解决“Failed to read data from:”的问题

通过将`Latin.unicharset`插入到`tesstrain/data/langdata`文件夹中可以解决“无法从:data/langdata/Latin.unicharset加载脚本unicharset”的问题

步骤13：创建的`.traineddata`的准确性

准备开始了吗？版本： 2025.5 刚刚发布

IronOCR 是 IRON 的一部分。套装

在此页面上

适用于 Tesseract 5 的 C# 自定义字体训练（适用于 Windows 用户）

开始使用IronOCR

如何在 C# 中使用 Tesseract 自定义字体

步骤1：下载最新版本的IronOCR

通过 DLL 安装

通过 NuGet 安装

步骤 2：安装和设置 WSL2 和 Ubuntu

步骤 3：在 Ubuntu 上安装魔方 5

步骤 4：下载您想要训练的字体

步骤5：为自定义字体训练挂载工作区的磁盘驱动器

步骤6：将字体文件复制到Ubuntu字体文件夹

故障排除：目标文件夹访问被拒绝

步骤7：从Github克隆tesseract_tutorial

步骤 8：从Github克隆tesstrain和tesseract

步骤 9：创建“data”文件夹以存储输出

步骤 10：运行 split_training_text.py

疑难解答：Fontconfig 警告：“/tmp/fonts.conf，第 4 行：忽略空字体目录名称”

注意：训练文件（.box 和 .tif）的数量

步骤11：下载 eng.traineddata

步骤12：创建你的自定义字体.traineddata

通过编辑Makefile中的代码行可以解决“Failed to read data from:”的问题

通过将Latin.unicharset插入到tesstrain/data/langdata文件夹中可以解决“无法从:data/langdata/Latin.unicharset加载脚本unicharset”的问题

步骤13：创建的.traineddata的准确性

准备开始了吗？ 版本： 2025.5 刚刚发布

获取您的免费

下一步：开始免费30天试用

下一步：开始免费30天试用

被全球超过200万名工程师信赖

IronOCR 是 IRON 的一部分。套装

通过将`Latin.unicharset`插入到`tesstrain/data/langdata`文件夹中可以解决“无法从:data/langdata/Latin.unicharset加载脚本unicharset”的问题

步骤13：创建的`.traineddata`的准确性

准备开始了吗？版本： 2025.5 刚刚发布