如何在 C# 中使用 Tesseract 自定义语言

已更新:2026年1月10日

Translated

View the article in English

IronOCR 可通过 UseCustomTesseractLanguageFile 方法加载 Tesseract .traineddata 文件，从而实现自定义语言、专用脚本或密码的 OCR，允许您从任何自定义训练的语言模型中提取文本。

as-heading:2（快速入门：为 OCR 加载自定义语言）

使用 NuGet 包管理器安装 IronOCR

PM > Install-Package IronOcr

复制并运行这段代码。

using IronOcr;

// Initialize OCR engine
var ocr = new IronTesseract();

// Load custom language file
ocr.UseCustomTesseractLanguageFile("custom.traineddata");

// Process document
using var input = new OcrInput();
input.LoadImage("document.png");

// Extract text
var result = ocr.Read(input);
Console.WriteLine(result.Text);

部署到您的生产环境中进行测试

立即开始在您的项目中使用 IronOCR，免费试用！

免费试用30天

1.通过 NuGet 软件包管理器安装 IronOCR 2.使用 UseCustomTesseractLanguageFile 加载自定义 .traineddata 文件 3.创建 OcrInput 并加载您的文档 4.调用 Read() 以您的自定义语言提取文本 5.保存或处理提取的文本

<! -- 待办事项：在此处添加图片 --> <! -- 介绍的视觉演示 --> <！--描述：截图或图表 -->

光学字符识别 (OCR) 有时需要处理自定义语言、专用脚本或密码。要读取包含自定义语言的输入图像，必须向 Tesseract 引擎提供该特定语言的训练数据。这些数据存储在一个名为.traineddata特殊文件中。

虽然创建（训练）此文件的复杂过程是使用 Tesseract 自己的工具完成的，但 IronOCR 完全支持使用这些自定义语言文件。这样，您就可以应用训练好的模型来破译和读取任何输入文本。本指南演示了如何使用 IronOCR 加载和使用自定义 .traineddata 文件。

## 如何在 Tesseract 中使用自定义语言

下载用于读取自定义语言的 C# 库
初始化 OCR 引擎
使用UseCustomTesseractLanguageFile加载自定义语言训练数据
使用LoadImage加载输入图像。
使用 Read 读取和提取自定义语言输入图像

如何使用 Tesseract 实现自定义语言 OCR？

<! -- 待办事项：在此处添加图片 --> <! -- 使用 tesseract 实现的自定义语言示意图 --> <！--说明：说明代码概念的图表或截图 -->

要在 Tesseract 中使用自定义语言，首先要调用 UseCustomTesseractLanguageFile 方法加载 .traineddata 文件。这是至关重要的一步，因为该文件包含所有训练数据，使 Tesseract 能够识别自定义语言的独特字符。

IronOCR 的自定义语言支持超出了标准语言的范围。无论您使用的是历史脚本、发明语言还是专业符号系统，翻译过程都是一样的。对于需要多种语言的项目，请查看我们的阅读多种语言指南，或了解开箱即支持的 125 种国际 OCR 语言。

接下来，像进行常规 OCR 操作一样加载输入文档。我们正在使用 LoadPdf 加载包含自定义语言段落的 PDF。 IronOCR 支持多种输入格式，包括图像（jpg、png、gif、tiff、bmp）和PDF。

最后，使用 Read 方法从输入中提取文本。翻译结果可以打印到控制台或保存到文本文件中，以供参考。

定制语言需要哪些培训数据？

我们将使用这个包含我们自定义语言文本的示例 PDF 作为输入。

我们将使用这个自定义语言的.traindata作为示例。

训练数据的质量和全面性直接影响到 OCR 的准确性。准备自定义语言培训数据时：

1.字符覆盖率：确保您的训练数据包含所有字符和符号 2.字体变化：如果您的文档在排版上有所不同，请包含多种字体样式 3.图像质量：使用与您在生产中处理的图像类似的图像进行培训 4.语境模式：包括常见的词语组合和短语

有关高级配置选项，请参阅我们的 Tesseract 详细配置指南。

如何加载和处理自定义语言文档？

:path=/static-assets/ocr/content-code-examples/how-to/ocr-custom-language.cs

using IronOcr;
using System;
using System.IO;

var ocrTesseract = new IronTesseract();

// Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata");

using var ocrInput = new OcrInput();
// Load the PDF containing text in the custom language
ocrInput.LoadPdf("custom.pdf");

var ocrResult = ocrTesseract.Read(ocrInput);

// Print text to the console
Console.WriteLine("--- OCR Result ---");
Console.WriteLine(ocrResult.Text);
Console.WriteLine("------------------");

// Pipe text to a .txt file
string outputFilePath = "ocr_output.txt";
File.WriteAllText(outputFilePath, ocrResult.Text);

Console.WriteLine($"\nSuccessfully saved text to {outputFilePath}");

Imports IronOcr
Imports System
Imports System.IO

Dim ocrTesseract As New IronTesseract()

' Load the traineddata file for the custom language
ocrTesseract.UseCustomTesseractLanguageFile("AMGDT.traineddata")

Using ocrInput As New OcrInput()
    ' Load the PDF containing text in the custom language
    ocrInput.LoadPdf("custom.pdf")

    Dim ocrResult = ocrTesseract.Read(ocrInput)

    ' Print text to the console
    Console.WriteLine("--- OCR Result ---")
    Console.WriteLine(ocrResult.Text)
    Console.WriteLine("------------------")

    ' Pipe text to a .txt file
    Dim outputFilePath As String = "ocr_output.txt"
    File.WriteAllText(outputFilePath, ocrResult.Text)

    Console.WriteLine(vbCrLf & "Successfully saved text to " & outputFilePath)
End Using

$vbLabelText $csharpLabel

以上代码演示了自定义语言 OCR 的基本工作流程。对于更复杂的情况，可以考虑这些增强功能：

优化性能：对于大型文档或批处理，实施多线程和异步支持以提高性能。

图像预处理：如果您的源文件存在质量问题，请在进行 OCR 处理之前应用图像校正过滤器。 Filter Wizard 可以帮助您找到最佳的预处理设置。

特定区域 OCR：对于内容混杂的文档，可使用图像的 OCR 区域技术，专注于包含自定义语言的特定区域。

自定义语言 OCR 可以带来哪些结果？

此输出结果显示了我们自定义语言模型的运行结果。通过提供正确的训练数据，IronOCR 成功破译了文本，结果是通俗易懂的英语。此外，这是代码生成的 txt 输出。

自定义语言 OCR 的准确性取决于多个因素：

培训数据质量：更好的培训数据产生更好的结果
文档一致性：与训练数据相匹配的文档表现最佳
图像分辨率：DPI 越高，结果越准确--请参阅我们的DPI 设置指南。

自定义语言实施的最佳实践

在生产环境中实施自定义语言 OCR 时，请考虑以下最佳实践：

错误处理和验证：在尝试加载 .traineddata 文件之前，请务必验证该文件是否存在并且可以访问。在自定义语言文件可能丢失或损坏的情况下，实施适当的错误处理。

性能优化：自定义语言模型可能比标准语言包更大。实现最佳性能：

处理多个文档时缓存加载的语言模型
使用进度跟踪监控长期运行的 OCR 操作
考虑在处理大型文档时实施超时功能

与标准语言相结合：如果您的文档包含自定义语言和标准语言，您可以同时加载多种语言。这对于内容混杂的文档尤其有用。

测试和验证：建立一个测试框架来验证 OCR 的准确性：

创建一个已知输出的测试数据集
使用结果置信度指标评估识别质量
实现高亮文本为图像，以便进行可视化调试

高级使用案例

自定义语言 OCR 提供了多种可能性：

历史文件保存：将古代手稿或以过时的文字书写的文本数字化 专业符号系统：处理数学公式、音乐符号或技术图表 - 请参阅我们的公式故障排除指南。 安全应用：解码专有编码系统或密码 无障碍：将专门的盲文或触觉书写系统转换为标准文本

如需了解更高级的应用场景，请浏览我们全面的代码示例，这些示例展示了 IronOCR 与 Tesseract 5 的各种功能。

常见问题解答

如何在带有自定义语言或脚本的文档上执行 OCR？

IronOCR 可通过 UseCustomTesseractLanguageFile 方法加载 Tesseract .traineddata 文件，从而实现自定义语言 OCR。这样，您就可以从任何自定义训练的语言模型中提取文本，包括专用脚本、历史文本或密码。

自定义语言识别需要什么文件格式？

IronOCR 需要一个 .traineddata 文件，其中包含自定义语言的训练数据。该文件使用 UseCustomTesseractLanguageFile 方法加载，包含 Tesseract 识别自定义语言独特字符的所有必要信息。

能否在一次 OCR 操作中使用多种自定义语言？

是的，IronOCR 支持多语言识别。您可以加载多个自定义语言文件，或将自定义语言与 IronOCR 开箱即支持的 125 种国际语言中的任何一种结合起来。

可以识别哪些类型的自定义脚本？

IronOCR 可以识别任何经过适当训练并生成 .traineddata 文件的自定义脚本，包括历史脚本、发明语言、专用符号系统和密码。其灵活性还可扩展到任何可使用 Tesseract 工具训练的书写系统。

如何在 C# 应用程序中实现自定义语言 OCR？

使用 IronOCR 实现自定义语言 OCR 的方法如下：1）初始化 IronTesseract 实例；2）使用 UseCustomTesseractLanguageFile 加载自定义 .traineddata 文件；3）创建 OcrInput 对象并加载文档；4）调用 Read() 方法提取文本；5）根据需要处理提取的文本。

Curtis Chau

立即与工程团队聊天

技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位，专注于前端开发，精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面，喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外，Curtis 对物联网 (IoT) 有浓厚的兴趣，探索将硬件和软件集成的新方法。在空闲时间，他喜欢玩游戏和构建 Discord 机器人，将他对技术的热爱与创造力相结合。

准备开始了吗？

Nuget 下载 5,384,824 | 版本: 2026.2 刚刚发布

查看许可证

客户亮点：

开发者焦点：

网络研讨会：

开始免费 30 天试用

本页内容

如何在 C# 中使用 Tesseract 自定义语言

立即开始使用 NuGet 创建 PDF 文件：

使用 NuGet 包管理器安装 IronOCR

复制并运行这段代码。

部署到您的生产环境中进行测试

如何使用 Tesseract 实现自定义语言 OCR？

定制语言需要哪些培训数据？

如何加载和处理自定义语言文档？

自定义语言 OCR 可以带来哪些结果？

自定义语言实施的最佳实践

高级使用案例

常见问题解答

如何在带有自定义语言或脚本的文档上执行 OCR？

自定义语言识别需要什么文件格式？

能否在一次 OCR 操作中使用多种自定义语言？

可以识别哪些类型的自定义脚本？

如何在 C# 应用程序中实现自定义语言 OCR？

开始免费 30 天试用

本页内容

如何在 C# 中使用 Tesseract 自定义语言

立即开始使用 NuGet 创建 PDF 文件：

使用 NuGet 包管理器安装 IronOCR

复制并运行这段代码。

部署到您的生产环境中进行测试

如何使用 Tesseract 实现自定义语言 OCR？

定制语言需要哪些培训数据？

如何加载和处理自定义语言文档？

自定义语言 OCR 可以带来哪些结果？

自定义语言实施的最佳实践

高级使用案例

常见问题解答

如何在带有自定义语言或脚本的文档上执行 OCR？

自定义语言识别需要什么文件格式？

能否在一次 OCR 操作中使用多种自定义语言？

可以识别哪些类型的自定义脚本？

如何在 C# 应用程序中实现自定义语言 OCR？

下一步：开始免费 30 天试用

下一步：开始免费 30 天试用

深受全球数百万工程师信赖