如何在 Tesseract 中使用多語言

如何在 C# 中使用 Tesseract 來使用多種語言#。

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR 可使用 Tesseract 引擎從多種語言的文件中萃取文字,只需一行程式碼即可設定主要和次要語言,支援超過 125 種語言套件,以進行無縫的多語言 OCR 處理。

介紹

<! -- 引言實作示意圖 --> <!--說明:說明程式碼概念的圖表或截圖 -->

IronOCR 使用 Tesseract Engine 作為可靠的 OCR 工具,從各種語言和腳本中提供文字擷取功能。

本文將探討 IronOCR 如何透過 Tesseract 處理多國語言的文字。 您將學習如何實作多語言 OCR 解決方案,並瞭解 IronOCR 及其 Tesseract 引擎整合的功能。

以多種語言處理文件對於現代應用程式而言至關重要。 國際商業文件、多語言網站和全球溝通平台都需要跨越語言障礙的精確文字擷取。 IronOCR 藉由與 Tesseract 廣泛的語言支援整合,可同時從包含多種腳本和字元集的文件中抽取文字,從而滿足此需求。

快速入門:使用 IronOCR 辨識多種語言的文字

以主要語言設定 IronOCR,並在一行中加入次要語言,即可從多語文件或影像中擷取文字。

Nuget Icon立即開始使用 NuGet 建立 PDF 檔案:

  1. 使用 NuGet 套件管理器安裝 IronOCR

    PM > Install-Package IronOcr

  2. 複製並運行這段程式碼。

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. 部署到您的生產環境進行測試

    立即開始在您的專案中使用 IronOCR,免費試用!
    arrow pointer


如何使用 IronOCR 閱讀多國語言 PDF? IronOcr 提供約 [125種語言套件](https://ironsoftware.com/csharp/ocr/examples/intl-languages/); 預設只安裝英文版。 從 NuGet 下載其他語言。 在此檢視所有可用的 語言包。 包含多種語言的 PDF 需要特定的 OCR 引擎配置。 IronOCR 允許您在處理文件前指定主要和次要語言,確保不同腳本和字元集的最佳辨識準確性。

哪些語言可用於 PDF 擷取? 以下範例說明如何在 IronOcr 中使用多種語言從 PDF 檔案中擷取文字。 ```csharp :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs ``` 對於複雜的 PDF 處理情境,請參閱我們的 [PDF OCR 文字萃取](https://ironsoftware.com/csharp/ocr/examples/csharp-pdf-ocr/)指南,其中涵蓋各種 PDF 格式和結構的進階技術。

語言優先順序如何影響 OCR 結果? 使用 `AddSecondaryLanguage` 方法新增任意數量的次要語言。 請注意,額外的語言可能會影響速度和效能。 語言優先順序取決於加入的順序,第一順序的優先順序較高。 在處理多語言文件時,瞭解語言優先順序至關重要。 在文字擷取的過程中,主要語言會獲得最高的優先順序 - OCR 引擎會首先嘗試將字元與主要語言的字元集進行比對。 當遇到不符合主要語言模式的字元時,會參考次要語言。 為達到最佳效能: - 將文件中最常用的語言設定為主要語言 - 在文件中加入按頻率排序的次要語言 - 將次要語言限制為您的使用個案所需的語言 對於使用多種語言的高效能應用程式,請參閱我們的 [Fast OCR Configuration](https://ironsoftware.com/csharp/ocr/examples/tune-tesseract-for-speed-in-dotnet/) 指南,以最佳化處理速度。

如何使用 Tesseract 處理多國語言影像? <!--說明:說明程式碼概念的圖表或截圖 --> 英文是預設的主要語言。 To change it, set the **Language** property to your desired language, then add secondary languages as needed. 包含多語言文字的圖片需要小心配置。 與 PDF 不同,圖片可能包含不同的文字方向、不同的字型以及混合的腳本。IronOCR 的 Tesseract 整合為這些情況提供了全面的語言配置選項。

何時應該變更預設語言設定? 變更預設語言時: - 文件大部分使用非英語語言 - 處理來自特定地區或國家的文件 - 您的應用程式以使用非英語內容的使用者為對象 - 針對特定字元集最佳化辨識準確度 以下是一個完整的多語言影像處理範例: ```csharp // Example code for reading multi-language image with IronOCR using IronOcr; // Initialize IronTesseract OCR engine var Ocr = new IronTesseract(); :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs ``` 如需自訂語言或專用字型,請參閱我們的 [使用自訂語言檔案](https://ironsoftware.com/csharp/ocr/examples/ocr-tesseract-custom-languages/)教學。

多語言 OCR 能帶來什麼結果? 適當的配置會產生這樣的結果: ![多國語言文字處理應用程式,顯示俄文和日文內容,並有控制台輸出顯示字元處理過程](/static-assets/ocr/how-to/multiple-languages/russian_japanese%20.webp)。 多語言 OCR 的結果品質取決於幾個因素: 1.**圖片品質**: 解析度越高 (300+ DPI) 效果越好。 請參閱我們的 [DPI 設定指南](https://ironsoftware.com/csharp/ocr/how-to/dpi-setting/)。 2.**文字清晰度**:清晰、明確的文字,無人工偽裝,可產生更精確的辨識度 3.**語言設定**:適當的主要和次要語言設定可確保正確的字元識別模式 4.**預先處理**:適當的篩選器可大幅改善結果。 請參閱我們的[影像修正濾鏡](https://ironsoftware.com/csharp/ocr/how-to/image-quality-correction/)指南,以瞭解增強技術。

多語言 OCR 的關鍵要點是什麼? IronOCR 使用 Tesseract 引擎,能有效地從多語言文件中抽取文字。 它能處理閱讀多種語言文本的複雜性,提供多用途的解決方案。 無論是處理各種語言的 PDF,或是處理多國語言的影像內容,IronOcr 都能簡化跨語言文字的辨識與擷取。 IronOCR 用於多語言文字擷取的主要優勢: - **廣泛的語言支援**:透過 NuGet 套件提供超過 [125 種國際 OCR 語言](https://ironsoftware.com/csharp/ocr/examples/intl-languages/)。 - **Flexible Configuration**:簡單的 API 可用於主要和次要語言設定 - **高準確性**:使用 Tesseract 5 的先進識別演算法 - **效能最佳化**:內建[多執行緒](https://ironsoftware.com/csharp/ocr/how-to/async/)支援 - **跨平台相容性**:適用於 Windows、Linux 和 macOS IronOCR 為多國語言 OCR 實作提供了結合易用性與強大功能的全面解決方案。 建立文件管理系統、翻譯工具或任何需要多語言文字擷取的應用程式,並具備成功所需的靈活性與可靠性。 從 NuGet 下載 IronOCR 並探索我們的文件和範例,開始您的多語言 OCR 專案。 對於特定的使用個案或進階方案,我們的[疑難排解指南](https://ironsoftware.com/csharp/ocr/troubleshooting/general-troubleshooting-ocr/)可提供洞察力,以達到最佳效果。

常見問題解答

如何對包含多種語言的文件執行 OCR?

IronOCR 只需一行代碼即可讓您設定多語言 OCR。使用 Language 屬性設定主要語言,並使用 AddSecondaryLanguage 方法新增次要語言。這可讓 IronOCR 同時準確地從包含多種腳本和字元集的文件中擷取文字。

文字擷取支援哪些語言?

IronOCR 透過其 Tesseract 引擎整合,支援超過 125 種語言套件。雖然預設安裝的是英文,但您可以從 NuGet 下載其他語言套件,以啟用從西班牙文、法文到阿拉伯文、中文、日文等各種語言的 OCR 功能。

如何新增用於 OCR 處理的次要語言?

使用 IronOCR 中的 AddSecondaryLanguage 方法啟用其他語言。例如:new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).此設定可讓 IronOCR 在同一個文件中辨識西班牙文和法文的文字。

我可以從多國語言的 PDF 中萃取文字嗎?

是的,IronOCR 可以處理包含多種語言的 PDF。只需在處理前,先將 OCR 引擎設定為您的主要和次要語言。IronOcr 將自動處理 PDF 中的不同腳本和字元集,以確保能夠準確擷取文件中所有語言的文字。

我需要另外安裝語言套件嗎?

是的,雖然 IronOCR 預設包含英文,但必須透過 NuGet 安裝額外的語言套件。每個語言套件都包含必要的資料,讓 IronOCR 的 Tesseract 引擎能辨識該特定語言的文字。您可以從 IronOCR 語言頁面檢視並下載所有可用的語言套件。

多語言 OCR 的最基本工作流程是什麼?

最低限度的工作流程包括 5 個步驟:1) 下載 IronOCR 函式庫;2) 準備您的 PDF 或影像文件;3) 透過 NuGet 安裝所需的語言套件;4) 使用 AddSecondaryLanguage 方法啟用其他語言;5) 為您的主要語言設定語言屬性。此設定可準確擷取多語言文字。

Kannaopat Udonpant
軟體工程師
在成為软件工程師之前,Kannapat 從日本北海道大學完成了環境資源博士學位。在追逐學位期间,Kannapat 還成為了生產工程系一部份——汽車机器人实验室的成員。2022 年,他利用他的 C# 技能加入 Iron Software 的工程團隊, 專注於 IronPDF。Kannapat 珍惜他的工作,因为他直接向编写大部分 IronPDF 使用的代码的开发者学习。除了同行学习,Kannapat 还喜欢在 Iron Software 工作的社交十环。当他不编写代码或文档时,Kannapat 通常在他的 PS5 上打游戏或重看《The Last of Us》。
審核人
Jeff Fritz
Jeffrey T. Fritz
首席程序经理 - .NET 社区团队
Jeff 也是 .NET 和 Visual Studio 团队的首席程序经理。他是 .NET Conf 虚拟会议系列的执行制作人,并主持“Fritz 和朋友”这一每周两次的开发者的直播节目,在节目上讨论技术并与观众一起编写代码。Jeff 撰写研讨会、主持演讲,并计划大型 Microsoft 开发者活动(包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP Summit)的内容。
準備好開始了嗎?
Nuget 下載 5,246,844 | 版本: 2025.12 剛發表