如何在 C# 中使用 Tesseract 處理多種語言
IronOCR 透過 Tesseract 引擎,僅需一行程式碼即可設定主要與次要語言,從多種語言的文件中擷取文字,並支援超過 125 種語言套件,實現無縫的多語言 OCR 處理。
簡介
IronOCR 採用 Tesseract 引擎作為可靠的 OCR 工具,可從多種語言和文字系統中提取文字。
本文探討 IronOCR 如何透過 Tesseract 處理多國語言文字。 您將學習如何實作多語言 OCR 解決方案,並了解 IronOCR 及其 Tesseract 引擎整合的功能。
處理多語言文件對現代應用程式而言至關重要。 國際商務文件、多語言網站及全球通訊平台,皆需跨越語言障礙進行精準的文字擷取。 IronOCR 透過整合 Tesseract 廣泛的語言支援功能來滿足此需求,使系統能夠同時從包含多種文字系統與字元集的文件中提取文字。
快速入門:使用 IronOCR 識別多種語言的文字
設定 IronOCR 的主要語言,並在一行中新增次要語言,即可從多語言文件或圖片中擷取文字。
簡化工作流程(5 個步驟)
- 下載用於讀取多種語言的 C# 函式庫
- 準備 PDF 文件與圖片以供閱讀
- 透過 NuGet 安裝額外的語言套件
- 請使用
AddSecondaryLanguage方法啟用所需的語言 - 設定 Language 屬性以變更預設語言
如何使用 IronOCR 閱讀多語言 PDF 檔案?
IronOCR 提供約 125 種語言套件; 預設僅安裝英文版本。 請從 NuGet 下載其他語言版本。 點此查看所有可用語言套件。
包含多種語言的 PDF 檔案需要特定的 OCR 引擎設定。 IronOCR 允許您在處理文件前指定主要語言與次要語言,確保在不同文字系統與字元集下皆能達到最佳的辨識準確度。
PDF 擷取支援哪些語言?
以下範例展示如何在 IronOCR 中使用多種語言從 PDF 檔案中擷取文字。
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
若需處理複雜的 PDF 情境,請參閱我們的《PDF OCR 文字擷取指南》,其中涵蓋了針對各種 PDF 格式與結構的高階技術。
語言優先級如何影響 OCR 結果?
請使用 AddSecondaryLanguage 方法新增任意數量的次要語言。 請注意,支援額外語言可能會影響速度與效能。 語言優先順序依新增順序而定,最先新增者優先。
處理多語言文件時,理解語言優先順序至關重要。 在文字擷取過程中,主要語言具有最高優先級——OCR 引擎會首先嘗試將文字與主要語言的字元集進行比對。 若遇到不符合主要語言模式的字元,將參考次要語言進行對照。
為獲得最佳效能:
- 將文件中最常用的語言設為主要語言
- 依文件中出現頻率排序,添加次要語言
- 次要語言應僅限於您的使用情境所必需的語言
若需處理多語言的高效能應用程式,請參閱我們的《快速 OCR 設定指南》以優化處理速度。
如何使用 Tesseract 處理多語言圖片?
英語為預設主要語言。 若要變更語言,請將 Language 屬性設定為您所需的語言,然後視需要新增次要語言。
包含多語言文字的圖片需進行仔細設定。 與 PDF 不同,圖像可能包含多種文字方向、不同字型以及混合文字編碼。IronOCR 整合的 Tesseract 功能為這些情境提供了全面的語言設定選項。
何時應變更預設語言設定?
在以下情況下變更預設語言:
- 文件內容大部分為非英語語言
- 處理來自特定地區或國家的文件
- 您的應用程式目標使用者為處理非英文內容的開發者
- 針對特定字元集優化辨識準確度
以下是一個完整的多語言影像處理範例:
// Example code for reading multi-language image with IronOCR
using IronOcr;
// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;
// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr
' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
若需使用自訂語言或特殊字型,請參閱我們的《使用自訂語言檔案》教學指南。
多語言 OCR 能帶來什麼樣的成效?
正確的設定可產生如下結果:

多語言 OCR 的結果品質取決於以下幾個因素:
多語言 OCR 的關鍵要點有哪些?
IronOCR 採用 Tesseract 引擎,能有效從多語言文件中擷取文字。 它能處理多語言文本讀取的複雜性,提供一個多功能的解決方案。 無論是處理多種語言的 PDF 檔案,還是處理多語言的圖像內容,IronOCR 都能簡化跨語言的文字辨識與擷取作業。
IronOCR 在多語言文字擷取方面的主要優勢:
- 廣泛的語言支援:透過 NuGet 套件提供超過 125 種國際 OCR 語言
- 彈性設定:提供用於設定主要語言與次要語言的簡易 API
- 高精準度:採用 Tesseract 5 的先進辨識演算法
- 效能優化:內建多執行緒支援
- 跨平台相容性:支援 Windows、Linux 及 macOS
IronOCR 提供一套全面的解決方案,結合了易用性與強大的功能,適用於多語言 OCR 的實作。 建置文件管理系統、翻譯工具,或任何需要多語言文字擷取的應用程式,並具備成功所需的靈活性與可靠性。
請從 NuGet 下載 IronOCR,並參閱我們的文件與範例,開始您的多語言 OCR 專案。 針對特定使用案例或進階情境,我們的疑難排解指南將提供實用建議,助您獲得最佳成效。
常見問題
如何對包含多種語言的文件執行 OCR 處理?
IronOCR 讓您僅需一行程式碼即可設定多語言 OCR。透過 Language 屬性設定主要語言,並使用 AddSecondaryLanguage 方法新增次要語言。此功能使 IronOCR 能同時從包含多種文字系統與字元集的文件中,精準地擷取文字。
支援哪些語言進行文字擷取?
IronOCR 透過整合 Tesseract 引擎,支援超過 125 種語言套件。雖然預設安裝的是英文版本,但您可以從 NuGet 下載額外的語言套件,以啟用從西班牙語、法語到阿拉伯語、中文、日語等眾多語言的 OCR 功能。
如何為 OCR 處理新增次要語言?
請使用 IronOCR 中的 AddSecondaryLanguage 方法來啟用額外的語言。例如:new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French)。此設定可讓 IronOCR 在同一份文件中識別西班牙語和法語的文字。
我可以從多語言 PDF 中擷取文字嗎?
是的,IronOCR 可以處理包含多種語言的 PDF 檔案。只需在處理前設定 OCR 引擎的主要語言和次要語言即可。IronOCR 會自動處理 PDF 中的不同文字系統和字元集,確保能準確擷取文件中所有語言的文字。
我需要另外安裝語言套件嗎?
是的,雖然 IronOCR 預設包含英文,但必須透過 NuGet 安裝額外的語言套件。每個語言套件都包含 IronOCR 的 Tesseract 引擎識別該特定語言文字所需的資料。您可以在 IronOCR 語言頁面查看並下載所有可用的語言套件。
多語言 OCR 的最簡工作流程為何?
最簡化的工作流程包含 5 個步驟:1) 下載 IronOCR程式庫,2) 準備您的 PDF 或圖像文件,3) 透過 NuGet 安裝所需的語言套件,4) 使用 AddSecondaryLanguage 方法啟用額外語言,以及 5) 設定主要語言的 Language 屬性。此設定可實現精準的多語言文字擷取。
IronOCR 能否整合至現有應用程式中?
IronOCR 設計上可輕鬆透過 C# 整合至現有應用程式中,讓開發人員能以最少的努力,為其軟體增添 OCR 功能。
使用 IronOCR 進行文件管理有哪些好處?
使用 IronOCR 進行文件管理,可將掃描文件轉換為可搜尋且可編輯的文字,從而簡化工作流程,減少人工資料輸入的需求,並提升文件的可存取性。
IronOCR 如何提升資料準確性?
IronOCR 透過其先進的辨識演算法與影像校正功能來提升資料準確性,確保文字擷取過程既可靠又精確。
IronOCR 是否有提供免費試用版?
是的,Iron Software 提供 IronOCR 的免費試用版,讓使用者能在決定購買前測試其功能與效能。

