在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
本教程提供了一个关于如何结合使用 Tesseract 和 IronOCR 从 PDF 和图像中识别多种语言文本的全面指南。 首先,确保在项目中通过Nouget包管理器安装IR OCR和必要的语言包。 首先导入所需的命名空间并使用有效的许可证密钥设置IronOCR以解锁其全部功能。 实例化 IronOCR Tesseract 对象以执行光学字符识别,最初使用英语作为默认语言。 要添加对其他语言(例如俄语)的支持,请使用“添加辅助语言”方法。
使用OCR PDF输入类加载一个名为“example.PDF”、包含多种语言文本的PDF文件。 执行OCR以提取文本内容,并将结果存储在指定的对象中。 为了确保多语言字符的准确显示,打印提取的文本到控制台之前,将控制台输出编码设置为Unicode。
此外,调整主要语言为俄语,并添加日语作为次要语言。 此修改有助于识别俄文和日文文本。 使用 OCR 图片输入类加载包含多语言文本的图像文件“example.png”,并使用配置好的语言设置执行 OCR。 将结果存储并将从图像中提取的文本打印到控制台。
通过遵循这些步骤,您可以无缝提取和识别来自各种文件类型的英语、俄语和日语文本。本教程强调了使用 Tesseract 和 IronOCR 处理多语言文本的有效性,使在 PDF 和图像中处理多语言文本变得简单明了。 欲获取更多教程并开始使用IronOCR,请订阅Iron Software并考虑注册试用。
进一步阅读:如何在 Tesseract 中使用多种语言
LIBRARY_GET_STARTED_WITH_PRODUCT_TRIAL_EXTENDED_BLOCK
30天试用密钥 立即获取。
15天试用密钥 立即获取。
无需信用卡
您的试用密钥应该在邮件中。
成功提交。
如果没有,请联系
support@ironsoftware.com
免费开始
无需信用卡
在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
预约30分钟的个人演示。
无需合同,无需卡片信息,无需承诺。
10 个 .NET API 产品用于您的办公文档