Tesseract详细配置 对于 OCR 而言,能够灵活地选择和提取文档中的文本至关重要。 由于执行 OCR 的成本很高,因此需要能够控制特定文档的性能和使用方法,以确保使用 OCR 的应用程序具有可扩展性和高效性。 IronTesseract 为开发者提供了不同的属性和选项,供他们进行调整。 例如,如果您想将某些字符列入黑名单,或者还想读取文档中的条形码,甚至指定 OCR 引擎如何读取页面以扫描潜在的文本块, IronTesseract类可以满足您的所有需求,甚至更多。 使用 Tesseract 5 进行 IronOCR 测量的 5 个步骤指南 var ocrTesseract = new IronTesseract(); ocrTesseract.Language = OcrLanguage.EnglishBest; ocrTesseract.Configuration.ReadBarCodes = false; ocrTesseract.Configuration.BlackListCharacters = "`ë|^"; ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false; 启动IronTesseract类后,会立即出现一些重要的选项,我们需要对其进行修改。 首先要配置的属性是Language 。 默认语言为英语; 然而, IronTesseract最多支持 125 种语言,甚至可以通过UseMultipleLanguages方法支持多种语言。 更多详情请参考这里。 我们要配置的第二个属性是TesseractConfiguration类。 通过此类,我们可以修改 Tesseract 引擎扫描文档中潜在文本块的方式。 首先,我们通过将语言设置为OcrLanguage.EnglishBest来修改 Tesseract 引擎的语言。 该变体结合了 LSTM 和 OEM,它们都是使用 OCR 的形状识别策略; 结合这两种策略可以使 OCR 产生更准确的结果。 之后,我们将ReadBarCodes设置为 false,以避免在 OCR 过程中读取条形码。 我们还可以通过将文档中的某些字符列入黑名单,进一步自定义和指定要提取的字符; 在这个例子中,我们将某些字符列入黑名单,以避免提取包含反引号、重音符号或插入符号的文本。 最后,我们将TesseractVariables["tessedit_parallelize"]设置为 false,暂时禁用并行处理。 最后一个功能非常强大,因为它直接与 Tesseract 引擎交互。以下是TesseractVariables的完整列表,开发人员可以使用这些变量进一步自定义 Tesseract 引擎在执行 OCR 时的行为。 探索更多 IronTesseract 配置选项 相关文档链接 在Github上查看 相关教程 相关操作指南 类文档 光学字符识别语言包 下载IronOCR DLL 报告此页面的问题 准备开始了吗? Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布 免费 NuGet 下载 总下载量:5,167,857 查看许可证