如何在 Tesseract 中使用多种语言

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

坎那帕·乌东攀

2025年三月17日

本教程提供了一个关于如何结合使用 Tesseract 和 IronOCR 从 PDF 和图像中识别多种语言文本的全面指南。首先，确保在项目中通过Nouget包管理器安装IR OCR和必要的语言包。首先导入所需的命名空间并使用有效的许可证密钥设置IronOCR以解锁其全部功能。实例化 IronOCR Tesseract 对象以执行光学字符识别，最初使用英语作为默认语言。要添加对其他语言（例如俄语）的支持，请使用“添加辅助语言”方法。

使用OCR PDF输入类加载一个名为“example.PDF”、包含多种语言文本的PDF文件。执行OCR以提取文本内容，并将结果存储在指定的对象中。为了确保多语言字符的准确显示，打印提取的文本到控制台之前，将控制台输出编码设置为Unicode。

此外，调整主要语言为俄语，并添加日语作为次要语言。此修改有助于识别俄文和日文文本。使用 OCR 图片输入类加载包含多语言文本的图像文件“example.png”，并使用配置好的语言设置执行 OCR。将结果存储并将从图像中提取的文本打印到控制台。

通过遵循这些步骤，您可以无缝提取和识别来自各种文件类型的英语、俄语和日语文本。本教程强调了使用 Tesseract 和 IronOCR 处理多语言文本的有效性，使在 PDF 和图像中处理多语言文本变得简单明了。欲获取更多教程并开始使用IronOCR，请订阅Iron Software并考虑注册试用。

进一步阅读：如何在 Tesseract 中使用多种语言

坎那帕·乌东攀

立即与工程团队聊天

软件工程师

在成为软件工程师之前，Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间，Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年，他利用自己的 C# 技能加入了 Iron Software 的工程团队，专注于 IronPDF。Kannapat 珍视他的工作，因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习，Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时，Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。

< 前一页
如何在IronOCR中使用OCR语言包

下一步 >
如何从图像文件中提取文本