Tesseract 詳細配置

在光學字符識別(OCR)方面,擁有如何處理和提取文檔文本的選擇和靈活性是必不可少的。 由於執行OCR的成本很高,為了確保使用OCR的應用程序具有可擴展性和效率,有必要能夠控制特定文檔上的性能和使用方法。

IronTesseract為開發者提供了不同的屬性和選項來調整。 例如,如果您想屏蔽某些字符,或者您也想要讀取文檔中的條形碼,甚至指導OCR引擎如何讀取頁面以掃描潛在的文本塊,所有這些以及更多功能都可以用IronTesseract類實現。

在初始化IronTesseract類後,有一些重要的選項我們希望立即修改。 要配置的第一個屬性是Language。 默認情況下,語言是英語; 然而,IronTesseract支持多達125種語言,甚至允許在UseMultipleLanguages方法中使用多種語言。 更多詳情,請參考這裡

我們要配置的第二個屬性是TesseractConfiguration類。 使用此類,我們可以修改Tesseract引擎如何掃描文檔以查找潛在的文本塊。

  • 首先,我們通過將語言分配給OcrLanguage.EnglishBest來修改Tesseract引擎的語言。 這種變化結合了LSTM和OEM,這些是使用OCR的形狀識別策略; 結合這兩種策略可以使OCR產生更準確的結果。
  • 之後,我們將ReadBarCodes設置為false,以避免在OCR過程中讀取條形碼。

我們還進一步自定義和指定要提取的字符,通過對文檔中的某些字符進行屏蔽; 在本例中,我們屏蔽字符以避免提取帶有反引號、重音符或插入符的文本。 最後,我們將TesseractVariables["tessedit_parallelize"]設置為false,以暫時禁用並行處理。 這最後一個功能非常強大,因為它直接與Tesseract引擎對話。這裡TesseractVariables的完整列表,允許開發者在執行OCR時進一步定制Tesseract引擎的行為。

探索更多IronTesseract配置選項

準備好開始了嗎?
Nuget 下載 5,044,537 | 版本: 2025.11 剛剛發布