为什么选择IronOCR而不是Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

准确性

魔方

  • Tesseract 无法处理旋转、倾斜、低 DPI、扫描或有背景噪音的图像
  • 需要使用 Photoshop 或 ImageMagick 对图像进行预处理

  • 处理时间长,然后才提供无意义的信息

IronOCR

  • _***_IronOCR预处理和 图像滤镜 消除头痛
  • 用户只需极少的配置,就能达到 99.8-100% 的准确率

图像兼容性

魔方

  • _**_只接受 Leptonica PIX 图像格式,该格式是 C# 中的 IntPtr C++ 对象
  • PIX 对象不是受管理的内存 -- 在 C# 中不小心处理它们会导致内存泄漏

IronOCR

  • 图像内存管理
  • 支持 PDF 和 Broad 图像
  • 多帧 TIFF
  • jpeg 和 jpeg2000
  • GIF
  • PNG
  • 系统.绘制位图、流和字节数组/二进制图像数据 (字节 []) 包括每种文件格式
  • IronSoftware.System.Drawing 即将取代 System.Drawing 依赖 (允许通用位图格式)

性能

魔方

  • 必须对记录不全的设置进行微调,以提供准确的
  • 依赖于干净的文件/预处理图像

IronOCR

  • 对于大多数图像,零配置都能准确快速地工作
  • 多线程充分利用多核处理器
  • 即使是低分辨率图像,一般也能以高精度运行
  • 无需 Photoshop

应用程序接口

魔方

几乎没有支持,对初学者不友好:

1.与互操作层合作 -- GitHub 上的许多互操作层都已过时,存在未解决的问题单、内存泄漏和控制台警告等问题

-- 可能不支持 .NET Core 或标准

2.与命令行 EXE 一起工作 -- 难以部署,并不断受到病毒扫描程序和安全策略的干扰

IronOCR

  • 用于 Tesseract 的经过管理和测试的 .NET 库,名为 IronTesseract
  • 文档齐全,支持智能提示(IntelliSense

  • 随时待命的支持工程师团队

语言

魔方

  • 只有 100 种语言

IronOCR

  • 超过 127 种内置语言 + 支持自定义语言包

结论

Tesseract 是 C++ 开发人员的绝佳资源,但它并不是一个完整的 .NET OCR 库。扫描或拍摄的图像必须经过预处理,使其具有正交性、标准化、高分辨率和无数字噪音,然后 Tesseract 才能准确地处理这些图像。

相比之下,IronOCR 只需一行代码就能做到这一点,甚至更多。IronOCR 使用一个经过精细调整的 Tesseract 的内部 OCR 引擎,该引擎为 C# 构建,在性能上做了大量改进,并增加了许多标准功能。