Tesseract詳細配置 對於 OCR 而言,能夠靈活地選擇和提取文件中的文字至關重要。 由於執行 OCR 的成本很高,因此需要能夠控制特定文件的效能和使用方法,以確保使用 OCR 的應用程式具有可擴展性和高效性。 IronTesseract 為開發者提供了不同的屬性和選項,供他們進行調整。 例如,如果您想要將某些字元列入黑名單,或者還想讀取文件中的條碼,甚至指定 OCR 引擎如何讀取頁面以掃描潛在的文字區塊,所有這些以及更多功能都可以使用 IronTesseract 類別來實現。 ## 使用 Tesseract 5 進行IronOCR的 5 個步驟指南 `var ocrTesseract = new IronTesseract();` `ocrTesseract.Language = OcrLanguage.EnglishBest;` `ocrTesseract.Configuration.ReadBarCodes = false;` `ocrTesseract.Configuration.BlackListCharacters = "`ë|^";` `ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;` 初始化 IronTesseract 類別之後,有一些重要的選項可以立即使用,我們想要對其進行修改。 首先要配置的屬性是 Language。 預設語言為英語; 但是,IronTesseract 支援最多 125 種語言,並且使用 UseMultipleLanguages 方法甚至可以支援多種語言。 更多詳情請參考這裡。 我們要配置的第二個屬性是 TesseractConfiguration 類別。 透過此類,我們可以修改 Tesseract 引擎掃描文件中潛在文字區塊的方式。 首先,我們透過將語言指派給 OcrLanguage.EnglishBest 來修改 Tesseract 引擎的語言。 該變體結合了 LSTM 和 OEM,它們都是使用 OCR 的形狀識別策略; 結合這兩種策略可以使 OCR 產生更準確的結果。 之後,我們將 ReadBarCodes 設為 false,以避免在 OCR 過程中讀取條碼。 我們也可以透過將文件中的某些字元列入黑名單,進一步自訂和指定要提取的字元; 在這個例子中,我們將某些字元列入黑名單,以避免提取包含反引號、重音符號或插入符號的文字。 最後,我們將 TesseractVariables["tessedit_parallelize"] 設為 false,暫時停用並行處理。 最後這個功能非常強大,因為它直接與 Tesseract 引擎互動。以下是 TesseractVariables 的完整列表,開發者可以透過這些選項進一步自訂 Tesseract 引擎在執行 OCR 時的行為。 探索更多 IronTesseract 設定選項 相關文檔連結 在 Github 上查看 相關教程 相關操作指南 類文檔 OCR 語言包 下載 IronOCR DLL 回報此頁面的問題 準備好開始了嗎? Nuget 下載 5,556,263 | 版本: 2026.3 剛剛發布 開始免費試用 免費 NuGet 下載 總下載量:5,556,263 查看許可證 還在捲動嗎? 想要快速證明? PM > Install-Package IronOcr 執行範例 觀看您的圖片變成可搜尋的文字。 免費 NuGet 下載 總下載量:5,556,263 查看許可證