Tesseract詳細配置

對於 OCR 而言,能夠靈活地選擇和提取文件中的文字至關重要。 由於執行 OCR 的成本很高,因此需要能夠控制特定文件的效能和使用方法,以確保使用 OCR 的應用程式具有可擴展性和效率。

IronTesseract 為開發者提供了不同的屬性和選項,供他們進行調整。 例如,如果您想將某些字元列入黑名單,或者還想讀取文件中的條碼,甚至指定 OCR 引擎如何讀取頁面以掃描潛在的文字區塊, IronTesseract類別可以滿足您的所有需求,甚至更多。

啟動IronTesseract類別後,會立即出現一些重要的選項,我們需要對其進行修改。 首先要配置的屬性是Language 。 預設語言為英語; 然而, IronTesseract支援最多 125 種語言,甚至可以透過UseMultipleLanguages方法支援多種語言。 更多詳情請參考這裡

我們要配置的第二個屬性是TesseractConfiguration類別。 透過此類,我們可以修改 Tesseract 引擎掃描文件中潛在文字區塊的方式。

  • 首先,我們透過將語言設定為OcrLanguage.EnglishBest來修改 Tesseract 引擎的語言。 該變體結合了 LSTM 和 OEM,它們都是使用 OCR 的形狀識別策略; 結合這兩種策略可以使 OCR 產生更準確的結果。
  • 之後,我們將ReadBarCodes設定為 false,以避免在 OCR 過程中讀取條碼。

我們也可以透過將文件中的某些字元列入黑名單,進一步自訂和指定要提取的字元; 在這個例子中,我們將某些字元列入黑名單,以避免提取包含反引號、重音符號或插入符號的文字。 最後,我們將TesseractVariables["tessedit_parallelize"]設定為 false,暫時停用並行處理。 最後一個功能非常強大,因為它直接與 Tesseract 引擎互動。以下TesseractVariables的完整列表,開發人員可以使用這些變數進一步自訂 Tesseract 引擎在執行 OCR 時的行為。

探索更多 IronTesseract 設定選項

準備好開始了嗎?
Nuget 下載 5,167,857 | Version: 2025.11 剛發表