Tesseract 詳細配置

在進行光學字符識別(OCR)時,擁有選項和靈活性對於如何處理和從文檔中提取文本至關重要。 由於執行 OCR 的成本較高,因此需要能夠控制對特定文件使用的性能和方法,以確保使用 OCR 的應用程序具有可擴展性和高效性。

IronTesseract 提供開發者多種屬性和選項以供調整。 例如,如果您想要將某些字符加入黑名單,或者想要讀取文檔中的條碼,甚至想要指導OCR引擎如何閱讀頁面以掃描潛在的文本塊,這一切都可以使用IronTesseract類來實現。

在啟動IronTesseract類別後,有幾個重要的選項可立即使用,我們可能需要進行修改。 第一個要配置的屬性是 Language。 默認情況下,語言是英語; 然而,IronTesseract 支援多達 125 種語言,甚至可以使用 UseMultipleLanguages 方法來支持多種語言。 如需更多詳細資訊,請參閱此處

第二個我們要配置的屬性是TesseractConfiguration類。 透過這個類別,我們可以修改 Tesseract 引擎如何掃描文件以尋找潛在的文字區塊。 首先,我們透過將語言指定為OcrLanguage.EnglishBest來修改 Tesseract 引擎的語言。 此變體結合了 LTSM 和 OEM,這是使用 OCR 的形狀識別策略; 結合這兩種策略可以使OCR產生更準確的結果。 之後,我們將ReadBarCodes設為 false,以避免在 OCR 過程中讀取條碼。

我們也進一步自訂規則,透過將文件中的某些字符加入黑名單來指定我們想要提取的字符; 在此示例中,我們將字符列入黑名單,以避免提取帶有反引號、重音或插入符號的文本。 最後,我們將 TessreactVariables["tessedit_parallelize"] 設置為 false,以暫時禁用並行處理。 最後這個功能非常強大,因為它直接與 Tesseract 引擎對話。這裡有一份完整的 TesseractVariables 列表,允許開發人員在執行 OCR 時進一步自定義 Tesseract 引擎的行為。 點擊此處查看操作指南,包括範例、示例代碼和文件。