为什么选择IronOCR而不是Tesseract
准确性
魔方
- Tesseract 无法处理旋转、倾斜、低 DPI、扫描或有背景噪音的图像
需要使用 Photoshop 或 ImageMagick 对图像进行预处理
- 处理时间长,然后才提供无意义的信息
IronOCR
- _***_IronOCR预处理和 图像滤镜 消除头痛
- 用户只需极少的配置,就能达到 99.8-100% 的准确率
图像兼容性
魔方
- _**_只接受 Leptonica PIX 图像格式,该格式是 C# 中的 IntPtr C++ 对象
- PIX 对象不是受管理的内存 -- 在 C# 中不小心处理它们会导致内存泄漏
IronOCR
- 图像内存管理
- 支持 PDF 和 Broad 图像
- 多帧 TIFF
- jpeg 和 jpeg2000
- GIF
- PNG
- 系统.绘制位图、流和字节数组/二进制图像数据 (字节 []) 包括每种文件格式
- IronSoftware.System.Drawing 即将取代 System.Drawing 依赖 (允许通用位图格式)
性能
魔方
- 必须对记录不全的设置进行微调,以提供准确的
- 依赖于干净的文件/预处理图像
IronOCR
- 对于大多数图像,零配置都能准确快速地工作
- 多线程充分利用多核处理器
- 即使是低分辨率图像,一般也能以高精度运行
- 无需 Photoshop
应用程序接口
魔方
几乎没有支持,对初学者不友好:
1.与互操作层合作 -- GitHub 上的许多互操作层都已过时,存在未解决的问题单、内存泄漏和控制台警告等问题
-- 可能不支持 .NET Core 或标准
2.与命令行 EXE 一起工作 -- 难以部署,并不断受到病毒扫描程序和安全策略的干扰
IronOCR
- 用于 Tesseract 的经过管理和测试的 .NET 库,名为 IronTesseract
文档齐全,支持智能提示(IntelliSense
- 随时待命的支持工程师团队
语言
魔方
- 只有 100 种语言
IronOCR
- 超过 127 种内置语言 + 支持自定义语言包
结论
Tesseract 是 C++ 开发人员的绝佳资源,但它并不是一个完整的 .NET OCR 库。扫描或拍摄的图像必须经过预处理,使其具有正交性、标准化、高分辨率和无数字噪音,然后 Tesseract 才能准确地处理这些图像。
相比之下,IronOCR 只需一行代码就能做到这一点,甚至更多。IronOCR 使用一个经过精细调整的 Tesseract 的内部 OCR 引擎,该引擎为 C# 构建,在性能上做了大量改进,并增加了许多标准功能。