如何用 Tesseract 多语言

如何在 C# 中使用 Tesseract 的多种语言 IronOCR 可使用 Tesseract 引擎从多种语言的文档中提取文本,只需一行代码即可配置主要语言和次要语言,支持超过 125 种语言包,实现无缝多语言 OCR 处理。 ## 简介 <!--说明:说明代码概念的图表或截图 --> IronOCR 使用 [Tesseract Engine](https://ironsoftware.com/csharp/ocr/features/tesseract/) 作为可靠的 OCR 工具,提供从各种语言和脚本中提取文本的功能。 本文将探讨 IronOCR 如何通过 Tesseract 处理多语言文本。 您将学习如何实施多语言 OCR 解决方案,并了解 IronOCR 及其 Tesseract 引擎集成的功能。 用多种语言处理文档对于现代应用程序至关重要。 国际商业文档、多语种网站和全球通信平台需要跨越语言障碍进行准确的文本提取。 IronOCR 通过与 Tesseract 的广泛语言支持集成,实现了同时从包含多种脚本和字符集的文档中提取文本,从而满足了这一需求。 *as-heading:2(快速入门:使用 IronOCR 识别多种语言的文本)* 用主要语言配置 IronOCR,并在一行中添加辅助语言,即可从多语言文档或图像中提取文本。 ```cs :title=Start Multilingual OCR in Seconds string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text; ```

如何使用 IronOCR 阅读多语言 PDF? IronOcr 提供约 [125 种语言包](https://ironsoftware.com/csharp/ocr/examples/intl-languages/); 默认情况下仅安装英文版。 从 NuGet 下载其他语言。 点击此处查看所有可用的语言包。 包含多种语言的 PDF 需要特定的 OCR 引擎配置。 IronOCR 允许您在处理文档前指定主要语言和次要语言,确保不同脚本和字符集的最佳识别准确性。

哪些语言可用于 PDF 提取? 下面的示例展示了如何使用 IronOcr 中的多种语言从 PDF 文件中提取文本。 ```csharp :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs ``` 如需了解复杂的 PDF 处理场景,请参阅我们的 [PDF OCR 文本提取](https://ironsoftware.com/csharp/ocr/examples/csharp-pdf-ocr/)指南,其中涵盖了适用于各种 PDF 格式和结构的高级技术。

语言优先级如何影响 OCR 结果? 使用 `AddSecondaryLanguage` 方法添加任意数量的辅助语言。 请注意,其他语言可能会影响速度和性能。 语言优先级取决于添加的顺序,先添加的语言优先级更高。 在处理多语言文件时,理解语言优先级至关重要。 在文本提取过程中,主要语言的优先级最高--OCR 引擎首先尝试将字符与主要语言的字符集进行匹配。 当遇到与主要语言模式不匹配的字符时,将参考辅助语言。 实现最佳性能: - 将文档中最常用的语言设置为主要语言 - 在文件中添加按频率排序的辅助语言 - 将辅助语言限制在使用案例所需的语言范围内 对于使用多种语言的高性能应用程序,请参阅我们的[快速 OCR 配置](https://ironsoftware.com/csharp/ocr/examples/tune-tesseract-for-speed-in-dotnet/)指南,以优化处理速度。

如何使用 Tesseract 处理多语言图像? <!--说明:说明代码概念的图表或截图 --> 英语是默认的主要语言。 To change it, set the **Language** property to your desired language, then add secondary languages as needed. 包含多语言文本的图片需要仔细配置。 与 PDF 不同,图像可能包含不同的文本方向、不同的字体和混合脚本。IronOCR 的 Tesseract 集成为这些情况提供了全面的语言配置选项。

何时应更改默认语言设置? 在下列情况下更改默认语言 - 文件大部分使用非英语语言 - 处理来自特定地区或国家的文件 - 您的应用程序面向使用非英语内容的用户 - 优化特定字符集的识别准确性 下面是一个完整的多语言图像处理示例: ```csharp // Example code for reading multi-language image with IronOCR using IronOcr; // Initialize IronTesseract OCR engine var Ocr = new IronTesseract(); :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs ``` 有关自定义语言或专用字体,请参阅我们的[使用自定义语言文件](https://ironsoftware.com/csharp/ocr/examples/ocr-tesseract-custom-languages/)教程。

多语言 OCR 可以带来哪些结果? 正确的配置会产生这样的结果: ![多语言文本处理应用程序,显示俄语和日语内容,控制台输出显示字符处理](/static-assets/ocr/how-to/multiple-languages/russian_japanese%20.webp)。 多语言 OCR 结果的质量取决于多个因素: 1.**图像质量**:分辨率越高(300 DPI 以上)效果越好。 请参阅我们的 [DPI 设置指南](https://ironsoftware.com/csharp/ocr/how-to/dpi-setting/)。 2.**文本清晰度**:清晰、明确、无人工痕迹的文本可提高识别准确性 3.**语言配置**:正确的主要语言和次要语言设置可确保正确的字符识别模式 4.**预处理**:适当的过滤器可显著改善结果。 有关增强技术,请参阅我们的 [ 图像校正过滤器](https://ironsoftware.com/csharp/ocr/how-to/image-quality-correction/)指南。

多语言 OCR 的关键要点是什么? IronOCR 使用 Tesseract 引擎,能有效地从多语言文档中提取文本。 它可以处理多种语言文本阅读的复杂性,提供了一个通用的解决方案。 无论是处理各种语言的 PDF 文件,还是处理多语言图像内容,IronOcr 都能简化跨语言文本的识别和提取。 IronOCR 用于多语言文本提取的主要优势: - **广泛的语言支持**:通过 NuGet 软件包支持超过 125 种国际 OCR 语言

常见问题解答

如何对包含多种语言的文档执行 OCR?

IronOCR 只需一行代码即可配置多语言 OCR。使用 Language 属性设置主要语言,并使用 AddSecondaryLanguage 方法添加辅助语言。这样,IronOCR 就能同时从包含多种脚本和字符集的文档中准确提取文本。

文本提取支持哪些语言?

IronOCR 通过其 Tesseract 引擎集成支持超过 125 种语言包。虽然默认安装的是英语,但您可以从 NuGet 下载其他语言包,以启用从西班牙语、法语到阿拉伯语、中文、日语等多种语言的 OCR 功能。

如何为 OCR 处理添加辅助语言?

使用 IronOCR 中的 AddSecondaryLanguage 方法启用其他语言。例如:new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).通过这种配置,IronOCR 可以识别同一文档中的西班牙语和法语文本。

我可以从多语言 PDF 中提取文本吗?

是的,IronOCR 可以处理包含多种语言的 PDF。只需在处理前将 OCR 引擎配置为主要语言和次要语言即可。IronOCR 会自动处理 PDF 中的不同脚本和字符集,确保准确提取文档中所有语言的文本。

我需要单独安装语言包吗?

是的,虽然 IronOCR 默认包含英语,但必须通过 NuGet 安装其他语言包。每个语言包都包含 IronOCR 的 Tesseract 引擎识别特定语言文本所需的数据。您可以从 IronOCR 语言页面查看并下载所有可用的语言包。

多语言 OCR 的最基本工作流程是什么?

最基本的工作流程包括 5 个步骤:1) 下载 IronOCR 库;2) 准备 PDF 或图像文档;3) 通过 NuGet 安装所需的语言包;4) 使用 AddSecondaryLanguage 方法启用其他语言;5) 为主要语言设置语言属性。这种设置可实现准确的多语言文本提取。

Kannaopat Udonpant
软件工程师
在成为软件工程师之前,Kannapat 在日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了车辆机器人实验室的成员,隶属于生物生产工程系。2022 年,他利用自己的 C# 技能加入 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他可以直接从编写大多数 IronPDF 代码的开发者那里学习。除了同行学习外,Kannapat 还喜欢在 Iron Software 工作的社交方面。不撰写代码或文档时,Kannapat 通常可以在他的 PS5 上玩游戏或重温《最后生还者》。
审核者
Jeff Fritz
Jeffrey T. Fritz
首席项目经理 - .NET 社区团队
Jeff 也是 .NET 和 Visual Studio 团队的首席项目经理。他是 .NET Conf 虚拟会议系列的执行制片人,并主持“Fritz and Friends”直播节目,每周两次与观众一起谈论技术并编写代码。Jeff 撰写研讨会、演示文稿并计划包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP 峰会在内的最大型微软开发者活动的内容。
准备开始了吗?
Nuget 下载 5,246,844 | 版本: 2025.12 刚刚发布