TesseractよりもIronOCRを選ぶ理由

2022年10月31日
更新済み 2024年10月20日
共有:
This article was translated from English: Does it need improvement?
Translated
View the article in English

正確性

テッセラクト

  • Tesseractが、回転、傾き、低DPI、スキャン、背景ノイズのある画像を処理できない。
  • PhotoshopまたはImageMagickを使用した画像の前処理が必要です。
  • 無意味な情報を提供するまでの処理時間が長い

IronOCR

  • _IronOCRのプリプロセシングと画像フィルターでこの頭痛を取り除きます
  • ユーザーは最小限の設定で99.8~100%の精度を達成することが多い

画像の互換性

テッセラクト

  • Leptonica PIX画像フォーマットのみを受け入れます。これはC#におけるIntPtr C++オブジェクトです。
  • C#(シーシャープ)でPIXオブジェクトを注意深く扱わないと、メモリリークが発生する。

IronOCR

  • 画像メモリ管理
  • PDFとブロードイメージをサポート:
  • マルチフレームTIFF
  • JPEG & JPEG2000
  • GIF
  • PNG
  • System.Drawingビットマップ、ストリーム、およびバイト配列/バイナリ画像データ(バイト[])は、すべてのファイル形式に含まれています。
  • IronSoftware.System.Drawing は、まもなく System.Drawing への依存を置き換える予定です(ユニバーサルなビットマップ形式を可能にします)。

    パフォーマンス

テッセラクト

  • 正確なセッティングを提供するためには、文書化されていないセッティングを微調整する必要がある。
  • クリーンな文書/前処理済み画像に依存する

IronOCR

  • ゼロ・コンフィギュレーションは、ほとんどの画像で正確かつ高速に動作する
  • マルチスレッドでマルチコアプロセッサをフル活用
  • 低解像度の画像でも、一般的に高い精度で機能する
  • フォトショップ不要

API

テッセラクト

サポートはほとんどなく、初心者には優しくない:

  1. Interopレイヤーで作業する -- GitHubに見られる多くのものは、未解決のチケット、メモリリーク、コンソール警告があり、古くなっています

    -- .NET Coreまたはスタンダードに対応していない場合があります。

  2. コマンドラインEXEでの作業 -- 配備が難しく、ウイルススキャナーやセキュリティ・ポリシーによって常に妨害される。

IronOCR

  • IronTesseractと呼ばれるTesseract用の.NETライブラリの管理とテスト
  • インテリセンスをサポートした完全なドキュメント
  • サポート・エンジニア・チーム

言語

テッセラクト

  • わずか100言語

IronOCR

  • 127以上の内蔵言語+カスタム言語パック対応

結論

TesseractはC++開発者にとって優れたリソースですが、.NETにとって完全なOCRライブラリではありません。 スキャンまたは撮影された画像は、Tesseractがそれらを正確に扱う前に、直交し、標準化され、高解像度であり、デジタルノイズがないように前処理されなければならない。

それに対して、IronOCRはわずか1行のコードでこれをはじめ、さらに多くのことができます。 IronOCRは、C#向けに構築された、その内部OCRエンジンとしてTesseractを非常にきめ細かく調整して使用し、多くのパフォーマンス向上と機能が標準で追加されています。