IRONOCRの使用

より高速で効率的なOCR処理のための最適化されたパフォーマンス

公開済み 2025年2月19日
共有:

2024年12月IronOCR処理する際に生成された検索可能なPDFのファイルサイズを大幅に削減する機能を導入しました。マルチページTIFF画像. この改善により出力ファイルが小さくなった一方で、処理速度とメモリ使用量においてパフォーマンスの課題が生じました。

初期の最適化2025.1これらのパフォーマンスの問題に取り組み始めました。 包括的な性能向上は2025.2リリースで後に提供され、複数ページのドキュメントを扱う際のスピードとメモリの課題を解決しながら、小さいファイルサイズを維持しました。


ボトルネックの特定: ページ回転と処理時間

1つの主要なパフォーマンスのボトルネックはページの回転でした。 各操作が既存のインスタンスを再利用せずに新しいインスタンスを生成していたため、不必要な処理時間とメモリ消費が発生しました。この非効率が原因で、特に大きなTIFFを変換する際に、処理時間とメモリ消費が増加しました。検索可能なPDF.

最適化バージョン(IronOCR 2025.2)

IronOCR 2025.1の最初の修正では、ページ回転のインスタンス再利用の最適化に重点を置いていました。 これにより、処理時間が63秒から57秒に短縮され、10%の改善がもたらされました。 しかし、これは始まりに過ぎませんでした。

さらに深く掘り下げると、改善のためのいくつかの他の領域を特定しました。


もちろんです。テキストを提供してください。

体系的なパフォーマンス向上

改善の重要な分野

  • 繰り返し操作のためのインスタンス再利用
  • 同時処理の最適化
  • メモリ割り当てとオブジェクトライフサイクル管理
  • 検索可能なPDFレンダリングの改善

    これらの最適化の各々は前回の成果を基に構築され、IronOcr 2025.2 の画期的な改善をもたらしました。


主な観察事項: 何が変わったのか?

これらの強化により、IronOCR 2025.2 のアップデートは大幅なパフォーマンスの向上を実現しました:

より高速な処理:

  • 24ページの検索可能なPDFは、現在49%速く処理されます(63秒 → 32秒).
  • マルチドキュメント処理45%改善されました。
  • シングル画像OCRは35%速くなっています。

    より効率的なメモリ使用:

  • オブジェクトの割り当てが最大63%削減されました。
  • メモリの断片化が少なくなり、パフォーマンスが向上しました。


ベンチマーク結果

ReadSimpleImage

  • 2025.2バージョン: 867.1 ms、2024.11バージョンより16.27%高速、2025.1バージョンより34.83%高速。

    Optimized Ocr Processing 1 related to ベンチマーク結果

  • メモリ: 81.65 MB、2024.11バージョンより31.27%少なく、2024.12バージョンより42.12%少ない。

    Optimized Ocr Processing 2 related to ベンチマーク結果

    複数のドキュメントを読み取る

    最適化されたバージョン(2025.2): 20706.6 ms、15.61% 速い(2024.11)バージョン

    Optimized Ocr Processing 3 related to ベンチマーク結果

  • メモリ: 1.2 GB、従来より4.76%少ない。
  • Pdfium バージョン: ベンチマークで失敗しました

    Optimized Ocr Processing 4 related to ベンチマーク結果

実際のアプリケーション:企業が利益を得る方法

法務およびコンプライアンス:文書のデジタル化を高速化

法律事務所は、複数ページのスキャンした契約書を扱う際に、以前はOCR処理が遅いという問題に直面していました。 IronOCR 2025.2を使用すると、契約書を検索可能なPDFに変換する速度が約50%速くなり、ケース研究やコンプライアンスチェックが効率化されます。

医療: 効率的な医療記録処理

病院やクリニックは、しばしば患者記録の大きなTIFFスキャンを扱います。 以前は、24ページのカルテを検索可能なPDFに変換するのに1分以上かかっていました。 これで、改善されたメモリ管理と並行処理により、このタスクはわずか32秒で完了し、重要な患者データへの迅速なアクセスが可能になります。

財務と監査:一括レポートの処理

会計事務所は、数百ページにわたる財務報告書をスキャンする際に、ファイルサイズを管理可能に保ちながら、テキストが検索可能な状態を維持するための解決策を必要としていました。 IronOCR の洗練されたレンダリングによって、マルチドキュメントスキャンの処理がより効率的になり、処理時間と最終ファイルサイズの両方が削減されます。

研究とアーカイブ:歴史文書の保存

スキャンされた研究論文や歴史的文書を扱うアーキビストは、ストレージのためにファイルを軽量に保ちながら、非常に正確なテキスト認識を必要とします。 最新の最適化により、大規模なドキュメント変換を大幅に低い処理負荷で扱うことができます。


検索可能なPDFの進化:単なる飛躍ではなくプロセス

最適化は一足飛びの進展ではなく、実世界の課題により形作られる段階的なプロセスです。

1.2024.11検索可能なPDFのファイルサイズの削減を導入しましたが、パフォーマンスの制限に直面しました。

  1. 2024.12レンダリングの改善によりPDFファイルのサイズが縮小されましたが、大きなTIFFで速度とメモリの問題が明らかになりました。

  2. 2025.1ページ回転処理における最初のボトルネックを解決し、処理時間を10%改善しました。

  3. 2025.2: 包括的な最適化により、49%のパフォーマンス向上、メモリ効率の改善、大規模な検索可能なPDFのスムーズな処理が実現されました。

    各アップデートは前回の教訓を基に構築され、より高速で効率的、そして高需要なワークロードに対応可能なOCRエンジンが生まれます。


最新のIronOCRアップデートのパワーを体験してください

あなたのビジネスが迅速、効率的、かつ正確なOCR処理に依存している場合、このIronOCR 2025.2の更新は、必要な速度と最適化を提供します。

30日間の無料トライアルキーをお試しくださいプロセスを体験する! 🚀

ジョルディ・バルディア

ジョルディ・バルディア

ソフトウェアエンジニア

 LinkedIn |  Website

ジョルディは、Iron Softwareでのスキルを活かしていないときには、ゲームプログラミングをしており、Python、C#、C++に最も堪能です。彼は製品テスト、製品開発、研究の責任を共有しており、継続的な製品改善に大きな価値をもたらしています。この多様な経験は彼を常に挑戦的で魅力的に保ち、彼はIron Softwareで働く一番好きな側面の一つだと言っています。ジョルディはフロリダ州マイアミで育ち、フロリダ大学でコンピューターサイエンスと統計学を学びました。
次へ >
C#でのOCR請求書処理(開発者向けチュートリアル)