TesseractではなくIronOCRを選ぶ理由
正確さ
テッセラクト
- Tesseract は、回転、傾斜、低 DPI、スキャン、または背景ノイズのある画像を処理できません。
- Photoshop または ImageMagick を使用して画像の前処理が必要です。
- 処理に長い時間がかかり、意味不明な情報が提供されることもよくあります。
IronOCR
- IronOCR は前処理を処理し、画像フィルターを適用してプロセスを簡素化します。
- 多くの場合、ユーザーは最小限の構成で 99.8% ~ 100% の精度を達成できます。
画像の互換性
テッセラクト
- C# の
IntPtrC++ オブジェクトである Leptonica PIX イメージ形式のみを受け入れます。 - PIX オブジェクトは管理されたメモリではありません。 C# でこれらを慎重に処理しないと、メモリ リークが発生します。
IronOCR
- 画像はメモリ管理されます。
- 幅広い画像形式をサポートします:
- マルチフレームTIFF
- JPEG および JPEG2000
- GIF
- PNG
- System.Drawing ビットマップ、ストリーム、バイト配列/バイナリ画像データ (
byte[])
- IronSoftware.System.Drawingは、System.Drawing への依存を置き換え、汎用的なビットマップ形式を可能にすることが期待されています。
パフォーマンス
テッセラクト
- 設定が十分に文書化されていないため、正確性を実現するために微調整する必要があります。
- クリーンなドキュメントと前処理済みの画像に依存します。
IronOCR
- ほとんどの画像に対して、設定なしで正確に動作します。
- マルチスレッドを利用してマルチコア プロセッサを最大限に活用します。
- 低解像度の画像でも、通常は高い精度が得られます。
- Photoshopは必要ありません。
API
テッセラクト
- サポートがほとんどなく、初心者向けではない:
- Interop レイヤーでの作業が必要です。 GitHub で見つかったものの多くは、未解決の問題、メモリ リーク、コンソール警告などがあり、古くなっています。
- .NET Core または Standard をサポートしない場合があります。
- コマンドライン EXE での作業は展開が難しく、ウイルス スキャナーやセキュリティ ポリシーによって中断される可能性があります。
- Interop レイヤーでの作業が必要です。 GitHub で見つかったものの多くは、未解決の問題、メモリ リーク、コンソール警告などがあり、古くなっています。
IronOCR
- IronTesseract と呼ばれる、Tesseract 用の管理およびテスト済みの .NET ライブラリ。
- IntelliSense サポートを備えた完全なドキュメント。
- いつでもお手伝いできるサポート エンジニア チーム。
言語
テッセラクト
- 100 言語のみをサポートします。
IronOCR
- 125 を超える組み込み言語をサポートし、カスタム言語パックのサポートも可能。
結論
Tesseract は C++ 開発者にとって優れたリソースですが、.NET 用の完全な OCR ライブラリではありません。 スキャンまたは撮影した画像は、Tesseract で正確に処理する前に、直交、標準化、高解像度、デジタル ノイズのない状態に前処理する必要があります。
対照的に、IronOCR は、たった 1 行のコードで、これ以上の機能を実行できます。 IronOCR は、C# 用に構築された、非常に細かく調整されたTesseract を内部 OCR エンジンに使用しており、多くのパフォーマンスの改善と機能が標準で追加されています。






