IRONOCRの使用

より高速で効率的なOCR処理のための最適化されたパフォーマンス

Kannaopat Udonpant
カンナパット・ウドンパント
2025年2月19日
共有:

2024年12月、IronOCRは、新しい機能を導入し、複数ページのTIFF画像を処理する際に生成される検索可能なPDFのファイルサイズを大幅に削減しました。 この改善により出力ファイルが小さくなった一方で、処理速度とメモリ使用量においてパフォーマンスの課題が生じました。

初期の最適化は2025.1においてこれらのパフォーマンス問題に取り組み始めました。 包括的な性能向上は2025.2リリースで後に提供され、複数ページのドキュメントを扱う際のスピードとメモリの課題を解決しながら、小さいファイルサイズを維持しました。


ボトルネックの特定: ページ回転と処理時間

1つの主要なパフォーマンスのボトルネックはページの回転でした。 各操作は既存のインスタンスを再利用するのではなく、新しいインスタンスを作成し、不要な処理時間とメモリ消費につながりました。この非効率性は、特に大規模なTIFFを検索可能なPDFに変換する際に、処理時間とメモリ消費が増加する結果となりました。

最適化バージョン (IronOCR 2025.2)

IronOCR 2025.1の最初の修正は、ページ回転のためのインスタンス再利用の最適化に重点を置きました。 これにより、処理時間が63秒から57秒に短縮され、10%の改善がもたらされました。 しかし、これは始まりに過ぎませんでした。

さらに深く掘り下げると、改善のためのいくつかの他の領域を特定しました。


#

体系的なパフォーマンス向上

改善の重要な分野

  • 繰り返し操作のためのインスタンス再利用
  • 同時処理の最適化
  • メモリ割り当てとオブジェクトライフサイクル管理
  • 検索可能なPDFレンダリングの改善

    これらの最適化の各々は、前作を土台にして構築され、IronOcr 2025.2の画期的な改善に繋がりました。


主な観察点: 何が変わったのか?

これらの強化により、IronOCR 2025.2 のアップデートは大幅なパフォーマンスの向上を実現しました:

高速処理

  • 24ページの検索可能なPDFは、現在49%速く処理されます(63秒 → 32秒)。
  • マルチドキュメント処理45%向上しました。
  • シングル画像OCR35%高速です。

    より効率的なメモリ使用:

  • オブジェクトの割り当てが最大63%削減されました。
  • メモリの断片化が少なくなり、パフォーマンスが向上しました。


ベンチマーク結果

ReadSimpleImage:

  • 2025.2バージョン: 867.1 ms、2024.11バージョンより16.27%高速、2025.1バージョンより34.83%高速。

    Optimized Ocr Processing 1 related to ベンチマーク結果

  • メモリ: 81.65 MB、2024.11バージョンより31.27%少なく、2024.12バージョンより42.12%少ない。

    Optimized Ocr Processing 2 related to ベンチマーク結果

    ReadMultipleDocs:

    最適化バージョン(2025.2):20706.6 ms、(2024.11)バージョンより15.61%高速。

    Optimized Ocr Processing 3 related to ベンチマーク結果

  • メモリ: 1.2 GB、従来より4.76%少ない。
  • Pdfium バージョン: ベンチマークで失敗しました

    Optimized Ocr Processing 4 related to ベンチマーク結果

実世界でのアプリケーション: ビジネスが享受するメリット

法務とコンプライアンス: ドキュメントデジタル化の迅速化

法律事務所は、複数ページのスキャンした契約書を扱う際に、以前はOCR処理が遅いという問題に直面していました。 IronOCR 2025.2を使用すると、契約書を検索可能なPDFに変換する速度が約50%速くなり、ケース研究やコンプライアンスチェックが効率化されます。

ヘルスケア:効率的な医療記録処理

病院やクリニックは、しばしば患者記録の大きなTIFFスキャンを扱います。 以前は、24ページのカルテを検索可能なPDFに変換するのに1分以上かかっていました。 これで、改善されたメモリ管理と並行処理により、このタスクはわずか32秒で完了し、重要な患者データへの迅速なアクセスが可能になります。

財務および監査:大量のレポートの処理

会計事務所は、数百ページにわたる財務報告書をスキャンする際に、ファイルサイズを管理可能に保ちながら、テキストが検索可能な状態を維持するための解決策を必要としていました。 IronOCR の洗練されたレンダリングによって、マルチドキュメントスキャンの処理がより効率的になり、処理時間と最終ファイルサイズの両方が削減されます。

研究とアーカイブ: 歴史文書の保存

スキャンされた研究論文や歴史的文書を扱うアーキビストは、ストレージのためにファイルを軽量に保ちながら、非常に正確なテキスト認識を必要とします。 最新の最適化により、大規模なドキュメント変換を大幅に低い処理負荷で扱うことができます。


検索可能なPDFの進化: 単なる飛躍ではなくプロセス

最適化は一足飛びの進展ではなく、実世界の課題により形作られる段階的なプロセスです。

  1. 2024.11: 検索可能なPDFのファイルサイズ削減を導入しましたが、パフォーマンスの制限が発生しました。

  2. 2024.12: レンダリングの改善によりPDFファイルのサイズが縮小されましたが、大きなTIFFで速度とメモリの問題が発覚しました。

  3. 2025.1: ページ回転処理の最初のボトルネックに対処し、処理時間が10%向上しました。

  4. 2025.2:包括的な最適化により、49%のパフォーマンス向上、メモリ効率の向上、大きな検索可能なPDFのスムーズな処理が実現されました。

    各更新では、前回のレッスンを基に構築され、より高速で効率的な、そして高需要のワークロードに対応できる状態にあるOCRエンジンが実現されています。


最新のIronOCRアップデートの力を体験する

お客様のビジネスが迅速で効率的、かつ正確なOCR処理に依存している場合、このIronOCR 2025.2アップデートは必要なスピードと最適化を提供します。

30日間の無料トライアルキーをお試しください。経験をしてみましょう\! 🚀

Kannaopat Udonpant
カンナパット・ウドンパント
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。
< 以前
IronOCR を使用してスキャンした画像から表データを抽出する: ライブデモのまとめ
次へ >
C#でのOCR請求書処理(開発者向けチュートリアル)