IronOCR 操作指南 读取多国语言 如何在 C# 中使用 Tesseract 实现多种语言 Kannapat Udonpant 已更新:七月 22, 2025 下载 IronOCR NuGet 下载 DLL 下载 Windows 安装程序 免费试用 法学硕士副本 法学硕士副本 将页面复制为 Markdown 格式,用于 LLMs 在 ChatGPT 中打开 向 ChatGPT 咨询此页面 在双子座打开 向 Gemini 询问此页面 在双子座打开 向 Gemini 询问此页面 打开困惑 向 Perplexity 询问有关此页面的信息 分享 在 Facebook 上分享 分享到 X(Twitter) 在 LinkedIn 上分享 复制链接 电子邮件文章 This article was translated from English: Does it need improvement? Translated View the article in English 在光学字符识别 (OCR) 技术领域,IronOCR 是一款备受推崇的工具,以其能够从各种语言和文字中提取文本而闻名。我们使用 Tesseract 引擎来提供可靠且易于使用的 OCR 工具。 在本文中,我们将探讨 IronOCR 如何借助 Tesseract 有效地处理多种语言的文本。 无论您是经验丰富的开发人员,正在寻找可靠的多语言 OCR 解决方案,还是仅仅好奇它的工作原理,本文都将帮助您了解 IronOCR 及其 Tesseract 引擎,阐明这一宝贵工具的功能。 快速入门:使用 IronOCR 识别多种语言的文本 只需一行代码,即可配置 IronOCR 的主要语言,并添加辅助语言,以从多种语言的文档或图像中提取文本。 这种设置使开发人员能够快速、轻松地启动并运行多语言 OCR。 立即开始使用 NuGet 创建 PDF 文件: 使用 NuGet 包管理器安装 IronOCR PM > Install-Package IronOcr 复制并运行这段代码。 string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text; 部署到您的生产环境中进行测试 立即开始在您的项目中使用 IronOCR,免费试用! 免费试用30天 最小工作流程(5 个步骤) 下载用于读取多种语言的 C# 库 准备PDF文档和图像以进行读取 通过 NuGet 安装其他语言包 使用AddSecondaryLanguage方法启用所需的语言 设置Language属性可更改默认语言 阅读多语言 PDF 示例 IronOcr 提供约 125 种语言包; 但是,默认情况下只安装了英语。 其余部分可以从 NuGet 下载。 您可以在这里查看所有可用的语言包。 在下面的示例中,我将向您展示如何使用 IronOcr 中的多种语言从 PDF 文件中提取文本的代码。 :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs using IronOcr; using System; // Instantiate IronTesseract IronTesseract ocrTesseract = new IronTesseract(); // Set secondary language to Russian ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian); // Add PDF using var pdfInput = new OcrPdfInput(@"example.pdf"); // Perform OCR OcrResult result = ocrTesseract.Read(pdfInput); // Output extracted text to console Console.WriteLine(result.Text); Imports IronOcr Imports System ' Instantiate IronTesseract Private ocrTesseract As New IronTesseract() ' Set secondary language to Russian ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian) ' Add PDF Dim pdfInput = New OcrPdfInput("example.pdf") ' Perform OCR Dim result As OcrResult = ocrTesseract.Read(pdfInput) ' Output extracted text to console Console.WriteLine(result.Text) $vbLabelText $csharpLabel 您可以使用AddSecondaryLanguage方法添加任意数量的辅助语言。 但是请注意,此项新增功能可能会影响速度和性能。 语言的优先级取决于其添加顺序,先添加的语言优先级更高。 阅读多语言图像示例 默认主要语言设置为英语。 要更改主要语言,请将Language属性设置为所需的语言。 之后,您还可以添加其他语言。 // Example code for reading multi-language image with IronOCR using IronOcr; // Initialize IronTesseract OCR engine var Ocr = new IronTesseract(); :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs // Example code for reading multi-language image with IronOCR using IronOcr; // Initialize IronTesseract OCR engine var Ocr = new IronTesseract(); using IronOcr; using System; // Instantiate IronTesseract IronTesseract ocrTesseract = new IronTesseract(); // Set primary language to Russian ocrTesseract.Language = OcrLanguage.Russian; ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese); // Add image using var imageInput = new OcrImageInput(@"example.png"); // Perform OCR OcrResult result = ocrTesseract.Read(imageInput); // Output extracted text to console Console.WriteLine(result.Text); IRON VB CONVERTER ERROR developers@ironsoftware.com $vbLabelText $csharpLabel 如果操作正确,您可以期待获得如下结果。 俄语和日语 结论 简而言之,IronOCR 由强大的 Tesseract 引擎提供支持,擅长从多种语言的文档中提取文本。 它是处理多种语言文本阅读复杂性的必备工具,为开发人员和求知欲强的人们提供了一个多功能的解决方案。 无论您是处理包含多种语言文本的 PDF 文件,还是处理图像中的多语言内容,IronOCR 都能简化识别和提取多种语言文本的任务。 常见问题解答 我如何在OCR处理过程中使用多国语言? 要在IronOCR中使用多国语言进行OCR处理,请从NuGet下载库,准备文档,安装附加语言包,并使用AddSecondaryLanguage方法启用其他语言。 如何从多语言PDF中提取文本? 您可以通过初始化IronTesseract OCR引擎,设置主语言,使用AddSecondaryLanguage方法添加次语言,并处理PDF以读取其内容,从而从多语言PDF中提取文本。 在一张图像中识别多国语言文本是否可能? 是的,使用IronOCR,您可以在一张图像中识别多国语言文本,通过在处理图像之前设置主语言并添加次语言到OCR引擎。 添加多国语言如何影响OCR性能? 在IronOCR中添加多国语言可能会影响OCR过程的速度和性能。添加语言的顺序决定它们的优先级,首先添加的语言具有较高优先级。 我如何更改IronOCR的默认语言? 您可以在处理文档或图像之前通过设置Language属性为所需语言来更改IronOCR的默认语言。 IronOCR支持多少语言包? IronOCR支持约125种语言包,尽管默认仅安装了英语语言包。附加语言包可以通过NuGet下载。 我如何在IronOCR中安装附加语言包? 要在IronOCR中安装附加语言包,请使用NuGet包管理器下载所需的语言包并将它们包括在您的项目中。 IronOCR可以读取不同文字体系的语言文本吗? 是的,IronOCR通过利用Tesseract引擎和启用相关语言包可以读取各种不同文字体系的语言文本。 使用IronOCR处理多语言内容有什么好处? IronOCR为识别和提取多语言内容中的文本提供了一种多功能的解决方案,使其成为处理包含多语言文本的文档或图像的开发人员的理想选择。 Kannapat Udonpant 立即与工程团队聊天 软件工程师 在成为软件工程师之前,Kannapat 在日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了车辆机器人实验室的成员,隶属于生物生产工程系。2022 年,他利用自己的 C# 技能加入 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他可以直接从编写大多数 IronPDF 代码的开发者那里学习。除了同行学习外,Kannapat 还喜欢在 Iron Software 工作的社交方面。不撰写代码或文档时,Kannapat 通常可以在他的 PS5 上玩游戏或重温《最后生还者》。 审核者 Jeffrey T. Fritz 首席项目经理 - .NET 社区团队 Jeff 也是 .NET 和 Visual Studio 团队的首席项目经理。他是 .NET Conf 虚拟会议系列的执行制片人,并主持“Fritz and Friends”直播节目,每周两次与观众一起谈论技术并编写代码。Jeff 撰写研讨会、演示文稿并计划包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP 峰会在内的最大型微软开发者活动的内容。 准备开始了吗? Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布 免费 NuGet 下载 总下载量:5,167,857 查看许可证