如何在 C# 中使用 Tesseract 實作多種語言

Q: 如何从多语言 PDF 中提取文本？

您可以通过初始化 IronTesseract OCR 引擎，设置主要语言，使用 AddSecondaryLanguage 方法添加次要语言，并处理 PDF 以读取其内容，从多语言 PDF 中提取文本。

Q: 如何更改 IronOCR 中的默认语言？

您可以通过在处理文档或图像之前将 Language 属性设置为所需的语言来更改 IronOCR 中的默认语言。

Kannapat Udonpant

更新:7月 22, 2025

Translated

View the article in English

在光學字元辨識 (OCR) 技術領域，IronOCR 是一款備受推崇的工具，以其能夠從各種語言和文字中提取文字而聞名。我們使用 Tesseract 引擎來提供可靠且易於使用的 OCR 工具。

在本文中，我們將探討 IronOCR 如何透過 Tesseract 有效地處理多種語言的文本。無論您是經驗豐富的開發人員，正在尋找可靠的多語言 OCR 解決方案，還是僅僅好奇它的工作原理，本文都將幫助您了解 IronOCR 及其 Tesseract 引擎，闡明這項寶貴工具的功能。

快速入門：使用 IronOCR 辨識多種語言的文字

只需一行程式碼，即可配置 IronOCR 的主要語言，並添加輔助語言，以從多種語言的文件或圖像中提取文字。這種設定使開發人員能夠快速、輕鬆地啟動並運行多語言 OCR。

使用 NuGet 套件管理器安裝 IronOCR

PM > Install-Package IronOcr

複製並運行這段程式碼。

string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;

部署到您的生產環境進行測試

立即開始在您的專案中使用 IronOCR，免費試用！

免費試用30天

最小工作流程（5 個步驟）

下載用於讀取多種語言的 C# 函式庫
准备 PDF 文档和图像以供阅读
透過 NuGet 安裝其他語言套件
使用AddSecondaryLanguage方法啟用所需的語言
設定Language屬性可更改預設語言

閱讀多語言 PDF 範例

IronOcr 提供約 125 種語言包；但是，預設情況下只安裝了英語。其餘部分可從 NuGet 下載。您可以在這裡查看所有可用的語言套件。

在下面的範例中，我將向您展示如何使用 IronOcr 中的多種語言從 PDF 檔案中提取文字的程式碼。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

您可以使用AddSecondaryLanguage方法來新增任意數量的輔助語言。但是請注意，此項新增功能可能會影響速度和效能。語言的優先順序取決於其新增順序，先加入的語言優先順序較高。

閱讀多語言圖像範例

預設主要語言設定為英語。若要變更主要語言，請將Language屬性設定為所需的語言。之後，您還可以新增第二語言。

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);

IRON VB CONVERTER ERROR developers@ironsoftware.com

$vbLabelText $csharpLabel

如果操作正確，您可以期待獲得以下結果。

俄語和日語

結論

簡而言之，IronOCR 由強大的 Tesseract 引擎提供支持，擅長從多種語言的文檔中提取文字。它是處理多種語言文字閱讀複雜性的必備工具，為開發人員和求知欲強的人們提供了一個多功能的解決方案。無論您是處理包含多種語言文字的 PDF 文件，還是處理圖像中的多語言內容，IronOCR 都能簡化識別和提取多種語言文字的任務。

常見問題解答

如何在 OCR 处理中使用多种语言？

要在 IronOCR 的 OCR 处理中使用多种语言，请从 NuGet 下载该库，准备您的文档，安装额外的语言包，并使用AddSecondaryLanguage方法来启用其他语言。

如何从多语言 PDF 中提取文本？

您可以通过初始化 IronTesseract OCR 引擎，设置主要语言，使用AddSecondaryLanguage方法添加次要语言，并处理 PDF 以读取其内容，从多语言 PDF 中提取文本。

在图像中识别多种语言的文本是否可能？

是的，通过使用 IronOCR，您可以在处理图像之前设置主要语言并向 OCR 引擎中添加次要语言，从而识别图像中的多种语言文本。

添加多种语言如何影响 OCR 性能？

在 IronOCR 中添加多种语言会影响 OCR 过程的速度和性能。添加语言的顺序决定了它们的优先级，最先添加的语言具有更高的优先级。

如何更改 IronOCR 中的默认语言？

您可以通过在处理文档或图像之前将Language属性设置为所需的语言来更改 IronOCR 中的默认语言。

IronOCR 支持多少语言包？

IronOCR 支持大约 125 个语言包，但默认情况下只安装英语语言包。其他语言包可以通过 NuGet 下载。

如何在 IronOCR 中安装额外的语言包？

要在 IronOCR 中安装额外的语言包，使用 NuGet 包管理器下载所需的语言包并将它们包含到您的项目中。

IronOCR 能读取不同文本脚本的语言吗？

是的，IronOCR 可以通过利用 Tesseract 引擎并启用相关语言包，读取具有不同文本脚本的各种语言。

使用 IronOCR 处理多语言内容有什么好处？

IronOCR 提供了一种多功能解决方案，用于识别和提取多语言内容中的文本，非常适合处理包含多种语言文本的文档或图像的开发人员。

Kannapat Udonpant

立即與工程團隊聊天

軟體工程師

在成為软件工程師之前，Kannapat 從日本北海道大學完成了環境資源博士學位。在追逐學位期间，Kannapat 還成為了生產工程系一部份——汽車机器人实验室的成員。2022 年，他利用他的 C# 技能加入 Iron Software 的工程團隊，專注於 IronPDF。Kannapat 珍惜他的工作，因为他直接向编写大部分 IronPDF 使用的代码的开发者学习。除了同行学习，Kannapat 还喜欢在 Iron Software 工作的社交十环。当他不编写代码或文档时，Kannapat 通常在他的 PS5 上打游戏或重看《The Last of Us》。

Jeffrey T. Fritz

首席程序经理 - .NET 社区团队

Jeff 也是 .NET 和 Visual Studio 团队的首席程序经理。他是 .NET Conf 虚拟会议系列的执行制作人，并主持“Fritz 和朋友”这一每周两次的开发者的直播节目，在节目上讨论技术并与观众一起编写代码。Jeff 撰写研讨会、主持演讲，并计划大型 Microsoft 开发者活动（包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP Summit）的内容。

準備好開始了嗎？

Nuget 下載 5,167,857 | Version: 2025.11 剛發表

檢視授權

客戶亮點：

開發者焦點：

網絡研討會：

在這頁

如何在 C# 中使用 Tesseract 實作多種語言

立即開始使用 NuGet 建立 PDF 檔案：

使用 NuGet 套件管理器安裝 IronOCR

複製並運行這段程式碼。

部署到您的生產環境進行測試

最小工作流程（5 個步驟）

閱讀多語言 PDF 範例

閱讀多語言圖像範例

結論

常見問題解答

如何在 OCR 处理中使用多种语言？

如何从多语言 PDF 中提取文本？

在图像中识别多种语言的文本是否可能？

添加多种语言如何影响 OCR 性能？

如何更改 IronOCR 中的默认语言？

IronOCR 支持多少语言包？

如何在 IronOCR 中安装额外的语言包？

IronOCR 能读取不同文本脚本的语言吗？

使用 IronOCR 处理多语言内容有什么好处？

在這頁

如何在 C# 中使用 Tesseract 實作多種語言

立即開始使用 NuGet 建立 PDF 檔案：

使用 NuGet 套件管理器安裝 IronOCR

複製並運行這段程式碼。

部署到您的生產環境進行測試

最小工作流程（5 個步驟）

閱讀多語言 PDF 範例

閱讀多語言圖像範例

結論

常見問題解答

如何在 OCR 处理中使用多种语言？

如何从多语言 PDF 中提取文本？

在图像中识别多种语言的文本是否可能？

添加多种语言如何影响 OCR 性能？

如何更改 IronOCR 中的默认语言？

IronOCR 支持多少语言包？

如何在 IronOCR 中安装额外的语言包？

IronOCR 能读取不同文本脚本的语言吗？

使用 IronOCR 处理多语言内容有什么好处？

獲得免費

下一步：開始免費 30 天試用

下一步：開始免費 30 天試用

深受全球超過 200 萬名工程師信賴