Tesseract详细配置

对于 OCR 而言,能够灵活地选择和提取文档中的文本至关重要。 由于执行 OCR 的成本很高,因此需要能够控制特定文档的性能和使用方法,以确保使用 OCR 的应用程序具有可扩展性和高效性。

IronTesseract 为开发者提供了不同的属性和选项,供他们进行调整。 例如,如果您想将某些字符列入黑名单,或者还想读取文档中的条形码,甚至指定 OCR 引擎如何读取页面以扫描潜在的文本块, IronTesseract类可以满足您的所有需求,甚至更多。

启动IronTesseract类后,会立即出现一些重要的选项,我们需要对其进行修改。 首先要配置的属性是Language 。 默认语言为英语; 然而, IronTesseract最多支持 125 种语言,甚至可以通过UseMultipleLanguages方法支持多种语言。 更多详情请参考这里

我们要配置的第二个属性是TesseractConfiguration类。 通过此类,我们可以修改 Tesseract 引擎扫描文档中潜在文本块的方式。

  • 首先,我们通过将语言设置为OcrLanguage.EnglishBest来修改 Tesseract 引擎的语言。 该变体结合了 LSTM 和 OEM,它们都是使用 OCR 的形状识别策略; 结合这两种策略可以使 OCR 产生更准确的结果。
  • 之后,我们将ReadBarCodes设置为 false,以避免在 OCR 过程中读取条形码。

我们还可以通过将文档中的某些字符列入黑名单,进一步自定义和指定要提取的字符; 在这个例子中,我们将某些字符列入黑名单,以避免提取包含反引号、重音符号或插入符号的文本。 最后,我们将TesseractVariables["tessedit_parallelize"]设置为 false,暂时禁用并行处理。 最后一个功能非常强大,因为它直接与 Tesseract 引擎交互。以下TesseractVariables的完整列表,开发人员可以使用这些变量进一步自定义 Tesseract 引擎在执行 OCR 时的行为。

探索更多 IronTesseract 配置选项

准备开始了吗?
Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布