如何在 C# 中使用 Tesseract 实现多种语言

Q: 我如何在OCR处理过程中使用多国语言？

要在IronOCR中使用多国语言进行OCR处理，请从NuGet下载库，准备文档，安装附加语言包，并使用 AddSecondaryLanguage 方法启用其他语言。

Q: 如何从多语言PDF中提取文本？

您可以通过初始化IronTesseract OCR引擎，设置主语言，使用 AddSecondaryLanguage 方法添加次语言，并处理PDF以读取其内容，从而从多语言PDF中提取文本。

Q: 我如何更改IronOCR的默认语言？

您可以在处理文档或图像之前通过设置 Language 属性为所需语言来更改IronOCR的默认语言。

Kannapat Udonpant

已更新:七月 22, 2025

Translated

View the article in English

在光学字符识别 (OCR) 技术领域，IronOCR 是一款备受推崇的工具，以其能够从各种语言和文字中提取文本而闻名。我们使用 Tesseract 引擎来提供可靠且易于使用的 OCR 工具。

在本文中，我们将探讨 IronOCR 如何借助 Tesseract 有效地处理多种语言的文本。无论您是经验丰富的开发人员，正在寻找可靠的多语言 OCR 解决方案，还是仅仅好奇它的工作原理，本文都将帮助您了解 IronOCR 及其 Tesseract 引擎，阐明这一宝贵工具的功能。

快速入门：使用 IronOCR 识别多种语言的文本

只需一行代码，即可配置 IronOCR 的主要语言，并添加辅助语言，以从多种语言的文档或图像中提取文本。这种设置使开发人员能够快速、轻松地启动并运行多语言 OCR。

使用 NuGet 包管理器安装 IronOCR

PM > Install-Package IronOcr

复制并运行这段代码。

string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;

部署到您的生产环境中进行测试

立即开始在您的项目中使用 IronOCR，免费试用！

免费试用30天

最小工作流程（5 个步骤）

下载用于读取多种语言的 C# 库
准备PDF文档和图像以进行读取
通过 NuGet 安装其他语言包
使用AddSecondaryLanguage方法启用所需的语言
设置Language属性可更改默认语言

阅读多语言 PDF 示例

IronOcr 提供约 125 种语言包；但是，默认情况下只安装了英语。其余部分可以从 NuGet 下载。您可以在这里查看所有可用的语言包。

在下面的示例中，我将向您展示如何使用 IronOcr 中的多种语言从 PDF 文件中提取文本的代码。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

您可以使用AddSecondaryLanguage方法添加任意数量的辅助语言。但是请注意，此项新增功能可能会影响速度和性能。语言的优先级取决于其添加顺序，先添加的语言优先级更高。

阅读多语言图像示例

默认主要语言设置为英语。要更改主要语言，请将Language属性设置为所需的语言。之后，您还可以添加其他语言。

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);

IRON VB CONVERTER ERROR developers@ironsoftware.com

$vbLabelText $csharpLabel

如果操作正确，您可以期待获得如下结果。

俄语和日语

结论

简而言之，IronOCR 由强大的 Tesseract 引擎提供支持，擅长从多种语言的文档中提取文本。它是处理多种语言文本阅读复杂性的必备工具，为开发人员和求知欲强的人们提供了一个多功能的解决方案。无论您是处理包含多种语言文本的 PDF 文件，还是处理图像中的多语言内容，IronOCR 都能简化识别和提取多种语言文本的任务。

常见问题解答

我如何在OCR处理过程中使用多国语言？

要在IronOCR中使用多国语言进行OCR处理，请从NuGet下载库，准备文档，安装附加语言包，并使用AddSecondaryLanguage方法启用其他语言。

如何从多语言PDF中提取文本？

您可以通过初始化IronTesseract OCR引擎，设置主语言，使用AddSecondaryLanguage方法添加次语言，并处理PDF以读取其内容，从而从多语言PDF中提取文本。

在一张图像中识别多国语言文本是否可能？

是的，使用IronOCR，您可以在一张图像中识别多国语言文本，通过在处理图像之前设置主语言并添加次语言到OCR引擎。

添加多国语言如何影响OCR性能？

在IronOCR中添加多国语言可能会影响OCR过程的速度和性能。添加语言的顺序决定它们的优先级，首先添加的语言具有较高优先级。

我如何更改IronOCR的默认语言？

您可以在处理文档或图像之前通过设置Language属性为所需语言来更改IronOCR的默认语言。

IronOCR支持多少语言包？

IronOCR支持约125种语言包，尽管默认仅安装了英语语言包。附加语言包可以通过NuGet下载。

我如何在IronOCR中安装附加语言包？

要在IronOCR中安装附加语言包，请使用NuGet包管理器下载所需的语言包并将它们包括在您的项目中。

IronOCR可以读取不同文字体系的语言文本吗？

是的，IronOCR通过利用Tesseract引擎和启用相关语言包可以读取各种不同文字体系的语言文本。

使用IronOCR处理多语言内容有什么好处？

IronOCR为识别和提取多语言内容中的文本提供了一种多功能的解决方案，使其成为处理包含多语言文本的文档或图像的开发人员的理想选择。

Kannapat Udonpant

立即与工程团队聊天

软件工程师

在成为软件工程师之前，Kannapat 在日本北海道大学完成了环境资源博士学位。在攻读学位期间，Kannapat 还成为了车辆机器人实验室的成员，隶属于生物生产工程系。2022 年，他利用自己的 C# 技能加入 Iron Software 的工程团队，专注于 IronPDF。Kannapat 珍视他的工作，因为他可以直接从编写大多数 IronPDF 代码的开发者那里学习。除了同行学习外，Kannapat 还喜欢在 Iron Software 工作的社交方面。不撰写代码或文档时，Kannapat 通常可以在他的 PS5 上玩游戏或重温《最后生还者》。

Jeffrey T. Fritz

首席项目经理 - .NET 社区团队

Jeff 也是 .NET 和 Visual Studio 团队的首席项目经理。他是 .NET Conf 虚拟会议系列的执行制片人，并主持“Fritz and Friends”直播节目，每周两次与观众一起谈论技术并编写代码。Jeff 撰写研讨会、演示文稿并计划包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP 峰会在内的最大型微软开发者活动的内容。

准备开始了吗？

Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布

查看许可证

客户亮点：

开发者焦点：

网络研讨会：

本页内容

如何在 C# 中使用 Tesseract 实现多种语言

立即开始使用 NuGet 创建 PDF 文件：

使用 NuGet 包管理器安装 IronOCR

复制并运行这段代码。

部署到您的生产环境中进行测试

最小工作流程（5 个步骤）

阅读多语言 PDF 示例

阅读多语言图像示例

结论

常见问题解答

我如何在OCR处理过程中使用多国语言？

如何从多语言PDF中提取文本？

在一张图像中识别多国语言文本是否可能？

添加多国语言如何影响OCR性能？

我如何更改IronOCR的默认语言？

IronOCR支持多少语言包？

我如何在IronOCR中安装附加语言包？

IronOCR可以读取不同文字体系的语言文本吗？

使用IronOCR处理多语言内容有什么好处？

本页内容

如何在 C# 中使用 Tesseract 实现多种语言

立即开始使用 NuGet 创建 PDF 文件：

使用 NuGet 包管理器安装 IronOCR

复制并运行这段代码。

部署到您的生产环境中进行测试

最小工作流程（5 个步骤）

阅读多语言 PDF 示例

阅读多语言图像示例

结论

常见问题解答

我如何在OCR处理过程中使用多国语言？

如何从多语言PDF中提取文本？

在一张图像中识别多国语言文本是否可能？

添加多国语言如何影响OCR性能？

我如何更改IronOCR的默认语言？

IronOCR支持多少语言包？

我如何在IronOCR中安装附加语言包？

IronOCR可以读取不同文字体系的语言文本吗？

使用IronOCR处理多语言内容有什么好处？

免费获取

下一步：开始免费 30 天试用

下一步：开始免费 30 天试用

深受全球 200 多万工程师信赖