如何在 Tesseract 中使用多語言

如何在 C# 中使用 Tesseract 實作多種語言

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR 使用 Tesseract 引擎,只需一行程式碼即可配置主要語言和輔助語言,從而能夠從多種語言的文檔中提取文本,支援超過 125 種語言包,實現無縫的多語言 OCR 處理。

介紹

IronOCR 使用Tesseract 引擎作為可靠的 OCR 工具,提供從各種語言和腳本中提取文字的功能。

本文探討了 IronOCR 如何透過 Tesseract 處理多種語言的文本。 您將學習如何實施多語言 OCR 解決方案,並了解 IronOCR 的功能及其 Tesseract 引擎整合。

現代應用程式需要處理多種語言的文檔。 國際商業文件、多語言網站和全球通訊平台需要跨越語言障礙進行準確的文字擷取。 IronOCR 透過與 Tesseract 廣泛的語言支援整合來滿足此需求,能夠同時從包含多種腳本和字元集的文件中提取文字。

快速入門:使用 IronOCR 辨識多種語言的文字

使用 IronOCR 配置主要語言,並可在一行中新增輔助語言,以從多語言文件或圖像中擷取文字。

Nuget Icon立即開始使用 NuGet 建立 PDF 檔案:

  1. 使用 NuGet 套件管理器安裝 IronOCR

    PM > Install-Package IronOcr

  2. 複製並運行這段程式碼。

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. 部署到您的生產環境進行測試

    立即開始在您的專案中使用 IronOCR,免費試用!
    arrow pointer


如何使用 IronOCR 閱讀多語言 PDF 檔案?

IronOcr 提供約125 種語言包; 預設只安裝了英語。 從 NuGet 下載其他語言。 點擊此處查看所有可用的語言包。

包含多種語言的PDF檔案需要進行特定的OCR引擎配置。 IronOCR 可讓您在處理文件之前指定主要語言和次要語言,從而確保在不同的腳本和字元集中實現最佳識別精度。

PDF提取支援哪些語言?

以下範例顯示如何在 IronOcr 中使用多種語言從 PDF 檔案中提取文字。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

對於複雜的 PDF 處理場景,請參閱我們的PDF OCR 文字擷取指南,其中涵蓋了各種 PDF 格式和結構的先進技術。

語言優先順序如何影響OCR結果?

使用AddSecondaryLanguage方法新增任意數量的輔助語言。 請注意,添加其他語言可能會影響速度和效能。 語言優先順序取決於新增順序,先加入的語言優先順序較高。

在處理多語言文件時,了解語言優先事項至關重要。 在文字擷取過程中,主要語言享有最高優先權-OCR 引擎首先嘗試將字元與主要語言的字元集進行配對。 當遇到與主要語言模式不符的字元時,會參考次要語言。

為了獲得最佳性能: 將文件中最常用的語言設定為主要語言

  • 新增文件中按出現頻率排序的次要語言
  • 將輔助語言限制在您的用例所需的範圍內

對於支援多種語言的高效能應用程序,請參閱我們的快速 OCR 配置指南以優化處理速度。

如何使用 Tesseract 處理多語言影像?

英語是預設的主要語言。 To change it, set the Language property to your desired language, then add secondary languages as needed.

包含多語言文字的圖像需要仔細配置。 與 PDF 不同,圖像可能包含不同的文字方向、字體和混合文字。 IronOCR 的 Tesseract 集成為這些場景提供了全面的語言配置選項。

何時應該更改預設語言設定?

更改預設語言的情況:

  • 該文件的大部分內容為非英語語言 處理來自特定地區或國家的文件 您的應用程式是針對處理非英語內容的使用者。
  • 針對特定字元集優化辨識準確率

以下是一個完整的多語言圖像處理範例:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
$vbLabelText   $csharpLabel

對於自訂語言或特殊字體,請參閱我們的"使用自訂語言檔案"教學課程。

多語OCR能帶來哪些結果?

正確的配置會產生以下結果:

多語言文字處理應用程序,顯示俄語和日語內容,控制台輸出顯示字元處理結果

多語言OCR辨識結果的品質取決於以下幾個因素:

1.影像品質:更高的解析度(300+ DPI)可產生更好的效果。 請參閱我們的DPI設定指南
2.文字清晰度:清晰、輪廓分明且無瑕疵的文字能帶來更準確的辨識。
3.語言配置:正確的主語言和輔助語言設定可確保正確的字元辨識模式
4.預處理:適當的濾波器可以顯著改善結果。 請參閱我們的影像校正濾鏡指南,以了解增強技巧。

多語言OCR的關鍵要點是什麼?

IronOCR 使用 Tesseract 引擎,能夠有效地從多語言文件中提取文字。 它能夠處理多種語言文字的複雜讀取問題,提供了多功能的解決方案。 無論是處理包含多種語言的 PDF 文件,或是處理多語言影像內容,IronOCR 都能簡化跨語言文字的辨識與擷取。

IronOCR在多語言文本擷取方面的主要優勢:

-廣泛的語言支援:透過 NuGet 套件支援超過125 種國際 OCR 語言
-靈活配置:主語言和輔助語言設定的簡易 API
-高精度:採用 Tesseract 5 的先進辨識演算法
-效能優化:內建多執行緒支持
-跨平台相容性:可在 Windows、Linux 和 macOS 上執行

IronOCR 提供了一個全面的解決方案,將易用性與強大的功能相結合,用於多語言 OCR 實現。 建立文件管理系統、翻譯工具或任何需要多語言文字擷取的應用程序,並具備成功所需的靈活性和可靠性。

從 NuGet 下載 IronOCR,並瀏覽我們的文件和範例,即可開始您的多語言 OCR 專案。 針對特定用例或進階場景,我們的故障排除指南可提供最佳結果的見解。

常見問題解答

如何對包含多種語言的文件執行 OCR?

IronOCR 只需一行代碼即可讓您設定多語言 OCR。使用 Language 屬性設定主要語言,並使用 AddSecondaryLanguage 方法新增次要語言。這可讓 IronOCR 同時準確地從包含多種腳本和字元集的文件中擷取文字。

文字擷取支援哪些語言?

IronOCR 透過其 Tesseract 引擎整合,支援超過 125 種語言套件。雖然預設安裝的是英文,但您可以從 NuGet 下載其他語言套件,以啟用從西班牙文、法文到阿拉伯文、中文、日文等各種語言的 OCR 功能。

如何新增用於 OCR 處理的次要語言?

使用 IronOCR 中的 AddSecondaryLanguage 方法啟用其他語言。例如:new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).此設定可讓 IronOCR 在同一個文件中辨識西班牙文和法文的文字。

我可以從多國語言的 PDF 中萃取文字嗎?

是的,IronOCR 可以處理包含多種語言的 PDF。只需在處理前,先將 OCR 引擎設定為您的主要和次要語言。IronOcr 將自動處理 PDF 中的不同腳本和字元集,以確保能夠準確擷取文件中所有語言的文字。

我需要另外安裝語言套件嗎?

是的,雖然 IronOCR 預設包含英文,但必須透過 NuGet 安裝額外的語言套件。每個語言套件都包含必要的資料,讓 IronOCR 的 Tesseract 引擎能辨識該特定語言的文字。您可以從 IronOCR 語言頁面檢視並下載所有可用的語言套件。

多語言 OCR 的最基本工作流程是什麼?

最低限度的工作流程包括 5 個步驟:1) 下載 IronOCR 函式庫;2) 準備您的 PDF 或影像文件;3) 透過 NuGet 安裝所需的語言套件;4) 使用 AddSecondaryLanguage 方法啟用其他語言;5) 為您的主要語言設定語言屬性。此設定可準確擷取多語言文字。

坎納奧帕特·烏東潘特
軟體工程師
在成為軟體工程師之前,Kannapat 在日本北海道大學完成了環境資源專業的博士學位。在攻讀博士學位期間,他還加入了生物生產工程系下屬的車輛機器人實驗室。 2022 年,他憑藉 C# 技能加入了 Iron Software 的工程團隊,專注於 IronPDF 的開發。 Kannapat 非常珍惜這份工作,因為他可以直接向 IronPDF 大部分程式碼的編寫者學習。除了與同事學習之外,Kannapat 也享受在 Iron Software 工作的社交氛圍。工作之餘,Kannapat 通常會玩 PS5 遊戲或重溫《最後生還者》。
經審核
傑夫·弗里茨
傑弗裡·T·弗里茨
.NET 社群團隊首席專案經理
Jeff 同時也是 .NET 和 Visual Studio 團隊的首席專案經理。他是 .NET Conf 虛擬會議系列的執行製片人,並主持每週兩次的開發者直播節目“Fritz and Friends”,在節目中他會與觀眾一起探討技術並編寫程式碼。 Jeff 也為包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP Summit 在內的微軟大型開發者活動撰寫研討會、簡報並策劃內容。
準備好開始了嗎?
Nuget 下載 5,299,091 | 版本: 2025.12 剛剛發布