IronOCR 操作指南 阅读多种语言 如何在 C# 中使用 Tesseract 來使用多種語言#。 Kannapat Udonpant 更新:2026年1月10日 下載 IronOCR NuGet 下載 DLL 下載 Windows 安裝程式 開始免費試用 法學碩士副本 法學碩士副本 將頁面複製為 Markdown 格式,用於 LLMs 在 ChatGPT 中打開 請向 ChatGPT 諮詢此頁面 在雙子座打開 請向 Gemini 詢問此頁面 在 Grok 中打開 向 Grok 詢問此頁面 打開困惑 向 Perplexity 詢問有關此頁面的信息 分享 在 Facebook 上分享 分享到 X(Twitter) 在 LinkedIn 上分享 複製連結 電子郵件文章 This article was translated from English: Does it need improvement? Translated View the article in English IronOCR 可使用 Tesseract 引擎從多種語言的文件中萃取文字,只需一行程式碼即可設定主要和次要語言,支援超過 125 種語言套件,以進行無縫的多語言 OCR 處理。 介紹 <! -- --> <!--說明:說明程式碼概念的圖表或截圖 --> IronOCR 使用Tesseract 引擎作為可靠的 OCR 工具,提供從各種語言和腳本中提取文字的功能。 本文將探討 IronOCR 如何透過 Tesseract 處理多國語言的文字。 您將學習如何實作多語言 OCR 解決方案,並瞭解 IronOCR 及其 Tesseract 引擎整合的功能。 以多種語言處理文件對於現代應用程式而言至關重要。 國際商業文件、多語言網站和全球溝通平台都需要跨越語言障礙的精確文字擷取。 IronOCR 藉由與 Tesseract 廣泛的語言支援整合,可同時從包含多種腳本和字元集的文件中抽取文字,從而滿足此需求。 快速入門:使用 IronOCR 辨識多種語言的文字 以主要語言設定 IronOCR,並在一行中加入次要語言,即可從多語文件或影像中擷取文字。 立即開始使用 NuGet 建立 PDF 檔案: 使用 NuGet 套件管理器安裝 IronOCR PM > Install-Package IronOcr 複製並運行這段程式碼。 string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text; 部署到您的生產環境進行測試 立即開始在您的專案中使用 IronOCR,免費試用! 免費試用30天 ### 最小工作流程(5 個步驟) 下載用於讀取多種語言的 C# 函式庫 准备 PDF 文档和图像以供阅读 透過 NuGet 安裝其他語言套件 使用AddSecondaryLanguage方法啟用所需的語言 設定 Language 屬性以變更預設語言 如何使用 IronOCR 閱讀多國語言 PDF? IronOcr 提供約 125種語言套件; 預設只安裝英文版。 從 NuGet 下載其他語言。 在此檢視所有可用的 語言包。 包含多種語言的 PDF 需要特定的 OCR 引擎配置。 IronOCR 允許您在處理文件前指定主要和次要語言,確保不同腳本和字元集的最佳辨識準確性。 哪些語言可用於 PDF 擷取? 以下範例說明如何在 IronOcr 中使用多種語言從 PDF 檔案中擷取文字。 :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs using IronOcr; using System; // Instantiate IronTesseract IronTesseract ocrTesseract = new IronTesseract(); // Set secondary language to Russian ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian); // Add PDF using var pdfInput = new OcrPdfInput(@"example.pdf"); // Perform OCR OcrResult result = ocrTesseract.Read(pdfInput); // Output extracted text to console Console.WriteLine(result.Text); Imports IronOcr Imports System ' Instantiate IronTesseract Private ocrTesseract As New IronTesseract() ' Set secondary language to Russian ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian) ' Add PDF Dim pdfInput = New OcrPdfInput("example.pdf") ' Perform OCR Dim result As OcrResult = ocrTesseract.Read(pdfInput) ' Output extracted text to console Console.WriteLine(result.Text) $vbLabelText $csharpLabel 對於複雜的 PDF 處理情境,請參閱我們的 PDF OCR 文字萃取指南,其中涵蓋各種 PDF 格式和結構的進階技術。 語言優先順序如何影響 OCR 結果? 使用 AddSecondaryLanguage 方法新增任意數量的次要語言。 請注意,額外的語言可能會影響速度和效能。 語言優先順序取決於加入的順序,第一順序的優先順序較高。 在處理多語言文件時,瞭解語言優先順序至關重要。 在文字擷取的過程中,主要語言會獲得最高的優先順序 - OCR 引擎會首先嘗試將字元與主要語言的字元集進行比對。 當遇到不符合主要語言模式的字元時,會參考次要語言。 為達到最佳效能: 將文件中最常用的語言設定為主要語言 在文件中加入按頻率排序的次要語言 將次要語言限制為您的使用個案所需的語言 對於使用多種語言的高效能應用程式,請參閱我們的 Fast OCR Configuration 指南,以最佳化處理速度。 如何使用 Tesseract 處理多國語言影像? <! -- --> <!--說明:說明程式碼概念的圖表或截圖 --> 英文是預設的主要語言。 To change it, set the Language property to your desired language, then add secondary languages as needed. 包含多語言文字的圖片需要小心配置。 與 PDF 不同,圖片可能包含不同的文字方向、不同的字型以及混合的腳本。IronOCR 的 Tesseract 整合為這些情況提供了全面的語言配置選項。 何時應該變更預設語言設定? 變更預設語言時: 文件大部分使用非英語語言 處理來自特定地區或國家的文件 您的應用程式以使用非英語內容的使用者為對象 針對特定字元集最佳化辨識準確度 以下是一個完整的多語言影像處理範例: // Example code for reading multi-language image with IronOCR using IronOcr; // Initialize IronTesseract OCR engine var Ocr = new IronTesseract(); :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs // Example code for reading multi-language image with IronOCR using IronOcr; // Initialize IronTesseract OCR engine var Ocr = new IronTesseract(); using IronOcr; using System; // Instantiate IronTesseract IronTesseract ocrTesseract = new IronTesseract(); // Set primary language to Russian ocrTesseract.Language = OcrLanguage.Russian; ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese); // Add image using var imageInput = new OcrImageInput(@"example.png"); // Perform OCR OcrResult result = ocrTesseract.Read(imageInput); // Output extracted text to console Console.WriteLine(result.Text); Imports IronOcr Imports System ' Initialize IronTesseract OCR engine Dim Ocr As New IronTesseract() ' Instantiate IronTesseract Dim ocrTesseract As New IronTesseract() ' Set primary language to Russian ocrTesseract.Language = OcrLanguage.Russian ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese) ' Add image Using imageInput As New OcrImageInput("example.png") ' Perform OCR Dim result As OcrResult = ocrTesseract.Read(imageInput) ' Output extracted text to console Console.WriteLine(result.Text) End Using $vbLabelText $csharpLabel 如需自訂語言或專用字型,請參閱我們的 使用自訂語言檔案教學。 多語言 OCR 能帶來什麼結果? 適當的配置會產生這樣的結果: 。 多語言 OCR 的結果品質取決於幾個因素: 1.圖片品質: 解析度越高 (300+ DPI) 效果越好。 請參閱我們的 DPI 設定指南。 2.文字清晰度:清晰、明確的文字,無人工偽裝,可產生更精確的辨識度 3.語言設定:適當的主要和次要語言設定可確保正確的字元識別模式 4.預先處理:適當的篩選器可大幅改善結果。 請參閱我們的影像修正濾鏡指南,以瞭解增強技術。 多語言 OCR 的關鍵要點是什麼? IronOCR 使用 Tesseract 引擎,能有效地從多語言文件中抽取文字。 它能處理閱讀多種語言文本的複雜性,提供多用途的解決方案。 無論是處理各種語言的 PDF,或是處理多國語言的影像內容,IronOcr 都能簡化跨語言文字的辨識與擷取。 IronOCR 用於多語言文字擷取的主要優勢: 廣泛的語言支援:透過 NuGet 套件提供超過 125 種國際 OCR 語言。 Flexible Configuration:簡單的 API 可用於主要和次要語言設定 高準確性:使用 Tesseract 5 的先進識別演算法 效能最佳化:內建多執行緒支援 跨平台相容性:適用於 Windows、Linux 和 macOS IronOCR 為多國語言 OCR 實作提供了結合易用性與強大功能的全面解決方案。 建立文件管理系統、翻譯工具或任何需要多語言文字擷取的應用程式,並具備成功所需的靈活性與可靠性。 從 NuGet 下載 IronOCR 並探索我們的文件和範例,開始您的多語言 OCR 專案。 對於特定的使用個案或進階方案,我們的疑難排解指南可提供洞察力,以達到最佳效果。 常見問題解答 如何對包含多種語言的文件執行 OCR? IronOCR 只需一行代碼即可讓您設定多語言 OCR。使用 Language 屬性設定主要語言,並使用 AddSecondaryLanguage 方法新增次要語言。這可讓 IronOCR 同時準確地從包含多種腳本和字元集的文件中擷取文字。 文字擷取支援哪些語言? IronOCR 透過其 Tesseract 引擎整合,支援超過 125 種語言套件。雖然預設安裝的是英文,但您可以從 NuGet 下載其他語言套件,以啟用從西班牙文、法文到阿拉伯文、中文、日文等各種語言的 OCR 功能。 如何新增用於 OCR 處理的次要語言? 使用 IronOCR 中的 AddSecondaryLanguage 方法啟用其他語言。例如:new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).此設定可讓 IronOCR 在同一個文件中辨識西班牙文和法文的文字。 我可以從多國語言的 PDF 中萃取文字嗎? 是的,IronOCR 可以處理包含多種語言的 PDF。只需在處理前,先將 OCR 引擎設定為您的主要和次要語言。IronOcr 將自動處理 PDF 中的不同腳本和字元集,以確保能夠準確擷取文件中所有語言的文字。 我需要另外安裝語言套件嗎? 是的,雖然 IronOCR 預設包含英文,但必須透過 NuGet 安裝額外的語言套件。每個語言套件都包含必要的資料,讓 IronOCR 的 Tesseract 引擎能辨識該特定語言的文字。您可以從 IronOCR 語言頁面檢視並下載所有可用的語言套件。 多語言 OCR 的最基本工作流程是什麼? 最低限度的工作流程包括 5 個步驟:1) 下載 IronOCR 函式庫;2) 準備您的 PDF 或影像文件;3) 透過 NuGet 安裝所需的語言套件;4) 使用 AddSecondaryLanguage 方法啟用其他語言;5) 為您的主要語言設定語言屬性。此設定可準確擷取多語言文字。 Kannapat Udonpant 立即與工程團隊聊天 軟體工程師 在成為軟體工程師之前,Kannapat 完成了日本北海道大學的環境資源博士學位。在攻讀學位期間,Kannapat 也成為生物製造工程系車輛機器人實驗室的成員。2022 年,他利用自己的 C# 技能加入 Iron Software 的工程團隊,主要負責 IronPDF 的開發。Kannapat 非常重視他的工作,因為他可以直接向撰寫 IronPDF 使用的大部分程式碼的開發者學習。除了同儕學習之外,Kannapat 也很享受在 Iron Software 工作的社交生活。不寫程式碼或文件時,Kannapat 通常會用 PS5 玩遊戲或重看《最後的我們》。 審核人 Jeffrey T. Fritz 首席計畫經理 - .NET 社群團隊 Jeff 也是 .NET 和 Visual Studio 團隊的首席計畫經理。他是 .NET Conf 虛擬會議系列的執行製作人,並主持「Fritz and Friends」開發人直播串流,每週播出兩次,與觀眾一起討論技術和編寫程式碼。Jeff 為 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP Summit 等大型 Microsoft 開發人員活動撰寫工作坊、簡報和規劃內容。 準備好開始了嗎? Nuget 下載 5,384,824 | 版本: 2026.2 剛剛發布 免費 NuGet 下載 總下載量:5,384,824 查看許可證