使用 IRONOCR

為更快速、更高效的 OCR 處理優化性能

2024.12IronOCR 引入了一項功能,顯著減少了在處理多頁TIFF圖像時生成的可搜索PDF的文件大小。 雖然此改進實現了較小的輸出文件,但也在處理速度和記憶體使用方面引入了性能挑戰。

初步優化在2025.1開始解決這些性能問題。 全面性的性能改進在2025.2版本中推出,該版本在處理多頁文件時保持了較小的文件大小,同時解決了速度和內存的問題。


識別瓶頸:頁面旋轉與處理時間

一個主要的效能瓶頸是頁面旋轉。 每個操作都創建了一個新的實例,而不是重用現有的實例,導致不必要的處理時間和記憶體消耗。這種低效率特別在將大型 TIFF 轉換為可搜尋 PDF 時,導致處理時間和記憶體消耗增加。

優化版本 (IronOCR 2025.2)

IronOCR 2025.1 的初始修正重點在於優化實例重用以進行頁面旋轉。 這導致了10%的小幅改善,將處理時間從63秒減少到57秒。 但這只是開始。

隨著我們深入探索,我們發現了其他幾個需改進的地方。


#

系統化性能增強

主要改善領域

  • 重複操作的實例重用
  • 優化並行處理
  • 記憶體分配與物件生命周期管理
  • 可搜索 PDF 渲染改進

    每一個這些優化都是在上一個基礎上構建的,從而帶來了IronOcr 2025.2的突破性改進。


關鍵觀察:發生了什麼變化?

這些改進使 IronOCR 2025.2 更新帶來了顯著的性能提升:

更快的處理

  • 24 頁可搜尋 PDF 現在處理速度快 49% (63 秒 → 32 秒)。
  • 多文件處理提升了45%
  • 單張影像的OCR**速度提升35%**。

    更高效的記憶體使用

  • 物件配置減少了最多達 63%。
  • 較少的記憶體碎片化導致更順暢的性能。


基準測試結果

ReadSimpleImage:

  • 2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。

    Optimized Ocr Processing 1 related to 基準測試結果

  • 記憶體:81.65 MB,比2024.11版本少31.27%,比2024.12版本少42.12%。

    Optimized Ocr Processing 2 related to 基準測試結果

    ReadMultipleDocs:

    優化版本 (2025.2): 20706.6 毫秒,比 (2024.11) 版本快 15.61%。

    Optimized Ocr Processing 3 related to 基準測試結果

  • 記憶體:1.2 GB,比Legacy少4.76%。
  • Pdfium 版本:未通過基準測試

    Optimized Ocr Processing 4 related to 基準測試結果

實際應用:企業如何受益

法律合規:更快速的文件數位化

一家律師事務所數位化法律合同時,之前在處理多頁掃描協議時面臨慢速的OCR處理。 利用 IronOCR 2025.2,他們現在可以將合約轉換為可搜尋的 PDF,其速度快近 50%,從而簡化案件研究和合規檢查。

醫療保健:高效的病歷處理

醫院和診所經常處理患者記錄的大型 TIFF 掃描檔。 以前,將一份24頁的病歷文檔轉換為可搜尋的PDF需要超過一分鐘。 現在,透過改進的記憶體管理和並行處理,這項任務僅需 32 秒即可完成,從而更快地訪問關鍵的患者數據。

財務與審計:處理批量報表

會計公司掃描數百頁的財務報告需要一個解決方案來保持文件大小的可控,同時確保文字保持可搜尋。 透過IronOCR的精細渲染,他們現在可以更有效率地處理多文件掃描,減少處理時間和最終檔案大小。

研究與檔案:保存歷史文件

從事掃描研究論文和歷史文件的檔案管理員需要高度準確的文字識別,同時保持文件存儲的輕量化。 最新的優化使他們能夠處理大規模的文件轉換,並顯著降低處理開銷。


可搜尋 PDF 的演進:這是一個過程,不僅僅是一個跳躍

優化不是一個單一的飛躍,而是一個由現實世界的挑戰塑造的逐步過程。

  1. 2024.11引入了可搜索 PDF 文件的大小減少功能,但遇到了性能限制。

  2. 2024.12渲染改進減少了 PDF 檔案大小,但暴露了大 TIFF 文件的速度和記憶體問題。

  3. 2025.1解決了頁面旋轉處理中的第一個瓶頸,處理時間提高了10%

  4. 2025.2:全面的優化帶來了49% 的效能提升,提高了記憶體效能,並對大型可搜索 PDF 的處理更為流暢。

    每次更新都建立在上一次的經驗教訓之上,從而打造出一個速度更快、更高效,並準備好應對高需求工作負載的OCR引擎。


體驗最新 IronOCR 更新的強大功能

如果您的業務依賴於快速、高效和準確的OCR處理,這次IronOCR 2025.2更新提供您所需的速度和優化。

嘗試30天免費試用金鑰,體驗這個過程! 🚀

Kannaopat Udonpant
坎納帕特·烏頓潘
軟體工程師
在成為軟體工程師之前,Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間,Kannapat 也成為了車輛機器人實驗室的成員,該實驗室隸屬於生物生產工程學系。2022 年,他利用自己的 C# 技能,加入了 Iron Software 的工程團隊,專注於 IronPDF 的開發。Kannapat 珍視這份工作,因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外,Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時,Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。
< 上一頁
使用 IronOCR 從掃描圖像中提取表格數據:現場展示回顧
下一個 >
在 C# 中進行 OCR 發票處理(開發者教程)