Tesseract详细配置 说到 OCR,在如何处理和提取文档中的文本方面具有选择性和灵活性是至关重要的。 由于执行 OCR 的成本很高,因此需要能够控制在特定文档上使用的性能和方法,以确保使用 OCR 的应用程序具有可扩展性和效率。 IronTesseract 为开发人员提供了不同的属性和选项。 例如,如果您想将某些字符列入黑名单,或者也想读取文档中的条形码,甚至想规定 OCR 引擎如何读取页面以扫描潜在的文本块,那么所有这些,甚至更多,都可以通过 IronTesseract 类来实现。 5-Step Guide to Using IronOCR with Tesseract 5 var ocrTesseract = new IronTesseract(); ocrTesseract.Language = OcrLanguage.EnglishBest; ocrTesseract.Configuration.ReadBarCodes = false; ocrTesseract.Configuration.BlackListCharacters = "`ë|^"; ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false; 在启动 IronTesseract 类后,我们需要立即修改几个重要的可用选项。 首先要配置的属性是 Language. 默认语言为英语; 然而,IronTesseract 支持多达 125 种语言,甚至允许使用 UseMultipleLanguages 方法使用多种语言。 有关详细信息,请参阅 此处。 我们要配置的第二个属性是 TesseractConfiguration 类。 通过该类,我们可以修改 Tesseract 引擎扫描文档以查找潜在文本块的方式。 首先,我们修改了 Tesseract 引擎的语言,将其指定为 OcrLanguage.EnglishBest. 该变体结合了 LSTM 和 OEM(使用 OCR 的形状识别策略); 将这两种策略结合起来,可以使 OCR 生成更准确的结果。 之后,我们将 ReadBarCodes 设置为 false,以避免在 OCR 过程中读取条形码。 我们还通过将文档中的某些字符列入黑名单,进一步定制和指定我们希望提取的字符; 在本例中,我们将字符列入黑名单,以避免提取带有反斜线、重音符号或粗体字的文本。 最后,我们将 TesseractVariables["tessedit_parallelize"] 设置为 false,以暂时禁用并行处理。 最后一项功能非常强大,因为它直接与 Tesseract 引擎对话。这里是TesseractVariables的完整列表,允许开发人员在执行 OCR 时进一步自定义 Tesseract 引擎的行为。 探索更多 IronTesseract 配置选项。 相关文档链接 在Github上查看 相关教程 相关操作指南 类文档 光学字符识别语言包 下载IronOCR DLL 报告此页面的问题 准备开始了吗? Nuget 下载 5,044,537 | 版本: 2025.11 刚刚发布 免费 NuGet 下载 总下载量:5,044,537 查看许可证