Tesseract 5 for .NET

随着数字文档成为现代企业和国际商务的标准,拥有一个能够描述和提取国际语言的 OCR 引擎是成功处理文档的关键要素。

Tesseract 5 是目前已知语言中最先进的库。不过,它也有一些注意事项:由于入门门槛较高,它并不容易实现,可以说很难使用。

然而,IronOcr 弥补了这一不足,让开发人员,无论是初学者还是老手,都能在简单的库中利用 Tesseract 5。 此外,IronOCR 是唯一已知的适用于 Tesseract 5 OCR 的 .NET 库,并具有对 .NET Framework、Standard、Core、Xamarin 和 Mono 的跨兼容性。

您可以从这里下载一个文件项目链接.

该行初始化了 IronOCR 库提供的一个类 IronTesseract 的实例。 新对象 ocrTesseract 将执行光学字符识别功能(光学字符识别)关于图像。

接下来,创建一个 OcrInput 对象,即 ocrInput,用于保存要进行 OCR 处理的图像。 使用关键字可确保 ocrInput 在不再需要时自动废弃,从而节约资源。

该行将 "images/image.png "图像文件加载到 ocrInput 中。 该图像将作为 OCR 处理的目标。

此处执行 OCR 操作。 ocrTesseract 的 "Read "方法处理 ocrInput 中加载的图像,并返回包含识别文本的OcrResult对象 ocrResult。

最后,这一行通过访问 ocrResult 的 Text 属性将提取的文本打印到控制台。 点击此处查看操作指南,其中包括示例、示例代码和文件。