フッターコンテンツにスキップ
IRONOCRの使い方

より高速で効率的な OCR 処理のための最適化されたパフォーマンス

2024.12 に IronOCR複数ページの TIFF 画像を処理する際に生成される検索可能な PDF のファイルサイズを大幅に削減する機能を導入しました。 この改善により出力ファイルが小さくなった一方で、処理速度とメモリ使用におけるパフォーマンスの課題も導入されました。

初期の最適化は 2025.1 でこれらのパフォーマンス問題に対処し始めました。 その後、包括的なパフォーマンス向上が2025年2月のリリースで提供され、マルチページ文書を扱う際の速度とメモリの課題を解決しながらファイルサイズの小ささを維持しました。


ボトルネックの特定:ページの回転と処理時間

主要なパフォーマンスのボトルネックはページ回転でした。 各操作が新しいインスタンスを作成し、既存のものを再利用せず、不要な処理時間とメモリ消費を引き起こしていました。 この非効率性は、特に大きなTIFFを検索可能なPDFに変換するときに、処理時間とメモリ消費の増加をもたらしました。

最適化バージョン (IronOCR 2025.2)

IronOCR 2025.1の初期の修正は、ページ回転のためのインスタンス再利用の最適化に焦点を当てていました。 これにより処理時間が63秒から57秒に10%程度の改善が見られました。 しかし、これは始まりにすぎませんでした。

さらに深く掘り下げると、改善のためのいくつかの他の領域が特定されました。


体系的なパフォーマンス向上

改善の主要箇所

  • 繰り返し操作のためのインスタンス再利用
  • 並行処理の最適化
  • メモリ割り当てとオブジェクトライフサイクル管理
  • 検索可能なPDFレンダリングの改善

これらの最適化はそれぞれ前のものに基づいて構築され、IronOCR 2025.2での画期的な改善につながりました。


主要な観察: 何が変わったのか?

これらの強化により、IronOcr 2025.2のアップデートは大幅なパフォーマンス向上を実現しました:

高速処理:

  • 24ページの検索可能なPDFは現在49%速く処理されます(63s → 32s)。
  • 複数ドキュメント処理45%改善されました。
  • 単一画像OCR35%速くなっています。

より効率的なメモリ使用:

  • オブジェクトの割り当てが最大63%減少しました。
  • メモリの断片化が少なく、パフォーマンスが滑らかになりました。

ベンチマーク結果

ReadSimpleImage:

  • 2025.2バージョン:868.1ms、2024.11バージョンより16.27%速く、2025.1バージョンより34.83%速い。

最適化されたOCR処理 1

  • メモリ:81.65MB、2024.11バージョンより31.27%少なく、2024.12バージョンより42.12%少ない。

最適化されたOCR処理 2

ReadMultipleDocs:

最適化バージョン(2025.2):20706.6ms、(2024.11)バージョンより15.61%速い。

最適化されたOCR処理 3

  • メモリ:1.2GB、レガシーバージョンより4.76%少ない。
  • Pdfiumバージョン:ベンチマークで不合格

最適化されたOCR処理 4

実世界のアプリケーション:企業が得られる利点

法律とコンプライアンス: より早い文書デジタル化

以前、法律事務所が複数のページでスキャンされた契約書を扱う際に、OCR処理が遅れていました。 IronOcr 2025.2を使うことで、契約書を検索可能なPDFに変換する速度が約50%向上し、ケース研究やコンプライアンスチェックが効率化されました。

医療: 効率的な医療記録処理

病院やクリニックは患者記録の大規模なTIFFスキャンを頻繁に扱います。 以前は、24ページの病歴文書を検索可能なPDFに変換するのに1分以上かかっていました。 現在では、メモリ管理と並行処理の改善により、この作業が32秒で完了し、重要な患者データへの素早いアクセスが可能になっています。

財務と監査: 大量レポートの取り扱い

会計事務所は何百ページもの財務諸表をスキャンするため、テキストが検索可能でありながらファイルサイズを管理しやすく保つソリューションが必要でした。 IronOCRの改良されたレンダリングを用いることで、複数の文書を効率的にスキャン処理し、処理時間と最終ファイルサイズの両方を削減できます。

研究とアーカイブ: 歴史的文書の保存

スキャンされた研究論文や歴史的文書を扱うアーカイブ業者は、正確なテキスト認識を必要としながらも、ストレージに対するファイルの軽量化を求めています。 最新の最適化により、大規模な文書変換を圧倒的に低い処理オーバーヘッドで扱うことができるようになりました。


検索可能なPDFの進化: プロセスであり、単なるジャンプではありません

最適化は一回の跳躍ではなく、現実の課題によって形作られる段階的なプロセスです。

  1. 2024.11: 検索可能なPDFのファイルサイズ削減を導入しましたが、パフォーマンスに制限がありました。
  2. 2024.12: レンダリングの改善によりPDFファイルサイズが減少しましたが、大きなTIFFに関してスピードとメモリの問題が明らかになりました。
  3. 2025.1: ページ回転処理の最初のボトルネックに対処し、処理時間を10%改善しました。
  4. 2025.2: 包括的な最適化により、49%のパフォーマンス向上、メモリ効率の改善、そして大きな検索可能なPDFのよりスムーズな処理を実現しました。

各更新は前の教訓に基づいており、より速く、より効率的で、高需要のワークロードに対応したOCRエンジンを実現しています。


最新のIronOCRアップデートのパワーを体験してください

ビジネスが迅速で効率的かつ正確なOCR処理に依存している場合、このIronOCR 2025.2アップデートは必要なスピードと最適化を提供します。

30日間の無料トライアルキーを試す とプロセスを体験してください!

よくある質問

OCRプロセスでインスタンス再利用を使用する利点は何ですか?

IronOCR 2025.2で実装されたように、OCRプロセスでのインスタンス再利用は、各操作のために新しいインスタンスを作成するオーバーヘッドを減少させ、処理速度を増加させメモリ消費を低下させます。

並列処理はどのようにしてOCRのパフォーマンスを向上させますか?

IronOCR 2025.2での並列処理は、複数のOCRタスクを同時に処理可能にし、ドキュメント処理の全体的な速度と効率を大幅に向上させます。

最新のOCRアップデートでは、PDFレンダリングにどのような最適化が行われましたか?

IronOCR 2025.2の最新アップデートには、検索可能なPDF文書に画像を変換する際の品質と速度を向上させる、改良されたPDFレンダリングが含まれています。

最新バージョンのOCRソフトウェアではどのようにメモリ使用量が改善されましたか?

IronOCR 2025.2では、メモリの割り当てを最適化し、断片化を減少させることで、メモリ使用量が最大63%削減されています。

OCRソフトウェアの処理速度を改善するために解決された問題は何ですか?

IronOCR 2025.2は、非効率的なページ回転プロセスなどの以前のパフォーマンスボトルネックに対応し、処理時間を大幅に短縮しました。

法務機関は最新のOCRソフトウェアアップデートからどのように利益を得られますか?

法務機関はIronOCR 2025.2から利益を得て、法的文書を検索可能なPDFにほぼ50%高速に変換し、効率的な調査とコンプライアンス管理を支援します。

多ページTIFFを処理する際のOCRアップデートの利点は何ですか?

IronOCR 2025.2のアップデートは、大規模な多ページTIFFの効率的な処理を可能にし、最大49%の高速化とメモリ管理の改善を提供し、大量のドキュメント処理に適しています。

医療業界はどのようにしてより高速なOCR処理から利益を得ていますか?

医療業界はIronOCR 2025.2を活用して、患者記録や大規模なTIFFスキャンをより早く処理し、重要な医療情報への迅速なアクセスを可能にします。

複数の文書を読む上でどのような改善がなされましたか?

IronOCR 2025.2は、ReadMultipleDocs機能を改善し、大量の文書変換を扱う際の処理時間とメモリ使用の効率を向上させました。

OCRアップデートはどのようにアーカイブと研究を助けますか?

アーカイブ管理者や研究者は、処理オーバーヘッドを削減しつつ、大量の文書を効率的に保存し、文書の完全性を保ちながらIronOCR 2025.2を活用できます。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。