视频

如何在 Tesseract 中使用多种语言

Kannaopat Udonpant
坎那帕·乌东攀
2025年三月17日
分享:


本教程提供了一个关于如何结合使用 Tesseract 和 IronOCR 从 PDF 和图像中识别多种语言文本的全面指南。 首先,确保在项目中通过Nouget包管理器安装IR OCR和必要的语言包。 首先导入所需的命名空间并使用有效的许可证密钥设置IronOCR以解锁其全部功能。 实例化 IronOCR Tesseract 对象以执行光学字符识别,最初使用英语作为默认语言。 要添加对其他语言(例如俄语)的支持,请使用“添加辅助语言”方法。

使用OCR PDF输入类加载一个名为“example.PDF”、包含多种语言文本的PDF文件。 执行OCR以提取文本内容,并将结果存储在指定的对象中。 为了确保多语言字符的准确显示,打印提取的文本到控制台之前,将控制台输出编码设置为Unicode。

此外,调整主要语言为俄语,并添加日语作为次要语言。 此修改有助于识别俄文和日文文本。 使用 OCR 图片输入类加载包含多语言文本的图像文件“example.png”,并使用配置好的语言设置执行 OCR。 将结果存储并将从图像中提取的文本打印到控制台。

通过遵循这些步骤,您可以无缝提取和识别来自各种文件类型的英语、俄语和日语文本。本教程强调了使用 Tesseract 和 IronOCR 处理多语言文本的有效性,使在 PDF 和图像中处理多语言文本变得简单明了。 欲获取更多教程并开始使用IronOCR,请订阅Iron Software并考虑注册试用。

进一步阅读如何在 Tesseract 中使用多种语言

LIBRARY_GET_STARTED_WITH_PRODUCT_TRIAL_EXTENDED_BLOCK

Kannaopat Udonpant
坎那帕·乌东攀
软件工程师
在成为软件工程师之前,Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年,他利用自己的 C# 技能加入了 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习,Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时,Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。
< 前一页
如何在IronOCR中使用OCR语言包
下一步 >
如何从图像文件中提取文本