Tesseract详细配置

对于 OCR 而言,能够灵活地选择和提取文档中的文本至关重要。 由于执行 OCR 的成本很高,因此需要能够控制特定文档的性能和使用方法,以确保使用 OCR 的应用程序具有可扩展性和高效性。

IronTesseract 为开发者提供了多种属性与选项,供其自由探索。 例如,如果您希望将某些字符加入黑名单,或者还想读取文档中的 BARCODE,甚至指定 OCR 引擎如何读取页面以扫描潜在的文本块,所有这些功能以及更多功能,都可以通过 IronTesseract 类实现。

初始化 IronTesseract 类后,有几个重要的选项立即可用,我们需要对其进行修改。 需要配置的第一个属性是 Language。 默认语言为英语; 然而,IronTesseract 支持多达 125 种语言,甚至可以通过 UseMultipleLanguages 方法实现多语言支持。 更多详情请参考这里

我们要配置的第二个属性是 TesseractConfiguration 类。 通过此类,我们可以修改 Tesseract 引擎扫描文档中潜在文本块的方式。

  • 首先,我们通过将语言分配给 OcrLanguage.EnglishBest 来修改 Tesseract 引擎的语言设置。 此变体结合了 LSTMOEM,这两者是利用 OCR 技术的形状识别策略; 结合这两种策略可以使 OCR 产生更准确的结果。
  • 随后,我们将 ReadBarCodes 设置为 false,以避免在 OCR 过程中识别 BARCODE。

我们还可以通过将文档中的某些字符列入黑名单,进一步自定义和指定要提取的字符; 在这个例子中,我们将某些字符列入黑名单,以避免提取包含反引号、重音符号或插入符号的文本。 最后,我们将 TesseractVariables["tessedit_parallelize"] 设为 false,暂时禁用并行处理。 最后一项功能非常强大,因为它能直接与 Tesseract 引擎进行交互。以下TesseractVariables 的完整列表,开发者可通过这些指令在执行 OCR 时进一步自定义 Tesseract 引擎的行为。

探索更多 IronTesseract 配置选项

准备开始了吗?
Nuget 下载 5,896,332 | 版本: 2026.5 just released
Still Scrolling Icon

还在滚动吗?

想快速获得证据? PM > Install-Package IronOcr
运行示例 观看您的图像变成可搜索文本。