Tesseract详细配置

说到 OCR,在如何处理和提取文档中的文本方面具有选择性和灵活性是至关重要的。 由于执行 OCR 的成本很高,因此需要能够控制在特定文档上使用的性能和方法,以确保使用 OCR 的应用程序具有可扩展性和效率。

IronTesseract 为开发人员提供了不同的属性和选项。 例如,如果您想将某些字符列入黑名单,或者也想读取文档内的条形码,甚至想规定 OCR 引擎如何读取页面以扫描潜在的文本块,所有这些,甚至更多,都可以通过 IronTesseract 类来实现。

启动 "IronTesseract "类后,我们需要立即修改几个重要的选项。 首先要配置的属性是 "语言"。 默认语言为英语; 然而,"IronTesseract "支持多达 125 种语言,甚至允许使用 "UseMultipleLanguages "方法使用多种语言。 有关详细信息,请参阅这里.

我们要配置的第二个属性是 "TesseractConfiguration "类。 通过该类,我们可以修改 Tesseract 引擎扫描文档以查找潜在文本块的方式。 首先,我们修改了 Tesseract 引擎的语言,将其指定为 OcrLanguage.EnglishBest。 该变体结合了 LTSM 和 OEM,这是一种使用 OCR 的形状识别策略; 将这两种策略结合起来,可以使 OCR 生成更准确的结果。 之后,我们将 ReadBarCodes 设置为 false,以避免在 OCR 过程中读取条形码。

我们还通过将文档中的某些字符列入黑名单,进一步定制和指定我们希望提取的字符; 在本例中,我们将字符列入黑名单,以避免提取包含反斜线、重音符号或粗体符号的文本。 最后,我们设置了 `TessreactVariables["tessedit_parallelize]将 "暂时禁用并行处理 "改为 "暂时禁用并行处理"。 最后一项功能非常强大,因为它直接与 Tesseract 引擎相关。这里这是一个完整的 "TesseractVariables"(魔方变量)列表,允许开发人员在执行 OCR 时进一步自定义魔方引擎的行为。 点击此处查看操作指南,包括示例、示例代码和文件。