TesseractよりもIronOCRを選ぶ理由
正確性
テッセラクト
- Tesseractが、回転、傾き、低DPI、スキャン、背景ノイズのある画像を処理できない。
- PhotoshopまたはImageMagickを使用した画像の前処理が必要です。
- 無意味な情報を提供するまでの処理時間が長い
IronOCR
- _IronOCRのプリプロセシングと画像フィルターでこの頭痛を取り除きます
- ユーザーは最小限の設定で99.8~100%の精度を達成することが多い
画像の互換性
テッセラクト
- Leptonica PIX画像フォーマットのみを受け入れます。これはC#におけるIntPtr C++オブジェクトです。
- C#(シーシャープ)でPIXオブジェクトを注意深く扱わないと、メモリリークが発生する。
IronOCR
- 画像メモリ管理
- PDFとブロードイメージをサポート:
- マルチフレームTIFF
- JPEG & JPEG2000
- GIF
- PNG
- System.Drawingビットマップ、ストリーム、およびバイト配列/バイナリ画像データ(バイト[])は、すべてのファイル形式に含まれています。
-
IronSoftware.System.Drawing は、まもなく System.Drawing への依存を置き換える予定です(ユニバーサルなビットマップ形式を可能にします)。
パフォーマンス
テッセラクト
- 正確なセッティングを提供するためには、文書化されていないセッティングを微調整する必要がある。
- クリーンな文書/前処理済み画像に依存する
IronOCR
- ゼロ・コンフィギュレーションは、ほとんどの画像で正確かつ高速に動作する
- マルチスレッドでマルチコアプロセッサをフル活用
- 低解像度の画像でも、一般的に高い精度で機能する
- フォトショップ不要
API
テッセラクト
サポートはほとんどなく、初心者には優しくない:
-
Interopレイヤーで作業する -- GitHubに見られる多くのものは、未解決のチケット、メモリリーク、コンソール警告があり、古くなっています
-- .NET Coreまたはスタンダードに対応していない場合があります。
- コマンドラインEXEでの作業 -- 配備が難しく、ウイルススキャナーやセキュリティ・ポリシーによって常に妨害される。
IronOCR
- IronTesseractと呼ばれるTesseract用の.NETライブラリの管理とテスト
- インテリセンスをサポートした完全なドキュメント
- サポート・エンジニア・チーム
言語
テッセラクト
- わずか100言語
IronOCR
- 127以上の内蔵言語+カスタム言語パック対応
結論
TesseractはC++開発者にとって優れたリソースですが、.NETにとって完全なOCRライブラリではありません。 スキャンまたは撮影された画像は、Tesseractがそれらを正確に扱う前に、直交し、標準化され、高解像度であり、デジタルノイズがないように前処理されなければならない。
それに対して、IronOCRはわずか1行のコードでこれをはじめ、さらに多くのことができます。 IronOCRは、C#向けに構築された、その内部OCRエンジンとしてTesseractを非常にきめ細かく調整して使用し、多くのパフォーマンス向上と機能が標準で追加されています。