Tesseract 5 for .NET
随着数字文档成为现代企业和国际商务的标准,拥有一个能够描述和提取国际语言的 OCR 引擎是成功处理文档的关键要素。
Tesseract 5 是目前已知语言中最先进的库。不过,它也有一些注意事项:由于入门门槛较高,它并不容易实现,可以说很难使用。
然而,IronOcr 弥补了这一不足,让开发人员,无论是初学者还是老手,都能在简单的库中利用 Tesseract 5。 此外,IronOCR 是唯一已知的适用于 Tesseract 5 OCR 的 .NET 库,并具有对 .NET Framework、Standard、Core、Xamarin 和 Mono 的跨兼容性。
您可以从这个链接下载文件项目。
使用 Tesseract 5 的 5 步代码
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.LoadImage(@"images\image.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
这行代码初始化了一个IronTesseract实例,这是由IronOCR库提供的类。 新的对象ocrTesseract将对图像执行光学字符识别(OCR)。
接下来,创建一个OcrInput对象 ocrInput,用于保存OCR处理的图像。 使用关键字可确保 ocrInput 在不再需要时自动废弃,从而节约资源。
该行将 "images/image.png "图像文件加载到 ocrInput 中。 该图像将作为 OCR 处理的目标。
此处执行 OCR 操作。 ocrTesseract 的 Read
方法处理 ocrInput 中加载的图像,并返回一个包含识别文本的 OcrResult 对象 ocrResult。
最后,这一行通过访问 ocrResult 的 Text 属性将提取的文本打印到控制台。 点击此处查看操作指南,其中包括示例、示例代码和文件。