使用 IRONOCR

為更快速、更高效的 OCR 處理優化性能

發佈 2025年2月19日
分享:

2024.12IronOCR引入了一項功能,在處理時顯著減少生成的可搜尋 PDF 的文件大小多頁TIFF影像. 雖然此改進實現了較小的輸出文件,但也在處理速度和記憶體使用方面引入了性能挑戰。

初步優化在2025.1開始解決這些性能問題。 全面性的性能改進在2025.2版本中推出,該版本在處理多頁文件時保持了較小的文件大小,同時解決了速度和內存的問題。


識別瓶頸:頁面旋轉與處理時間

一個主要的效能瓶頸是頁面旋轉。 每次操作都創建了一個新實例,而不是重用現有的實例,導致不必要的處理時間和記憶體消耗。這種效率低下尤其在將大型TIFF文件轉換為其他格式時導致了處理時間和記憶體消耗的增加。可搜索的PDF檔.

優化版本 (IronOCR 2025.2)

IronOCR 2025.1 的初始修正重點在於優化實例重用以進行頁面旋轉。 這導致了10%的小幅改善,將處理時間從63秒減少到57秒。 但這只是開始。

隨著我們深入探索,我們發現了其他幾個需改進的地方。


系統性性能增強

主要改進領域

  • 重複操作的實例重用
  • 優化並行處理
  • 記憶體分配與物件生命周期管理
  • 可搜索 PDF 渲染改進

    這些優化中的每一項都是建立在上一項的基礎上,從而帶來了IronOcr 2025.2的突破性改進。


關鍵觀察:有何變化?

這些改進使 IronOCR 2025.2 更新帶來了顯著的性能提升:

更快的處理速度

  • 24 頁可搜尋 PDF 現在處理速度提升 49%(63秒 → 32秒).
  • 多文件處理 提升了 45%
  • 單張影像OCR35%

    更有效的記憶體使用

  • 物件配置減少了最多達 63%。
  • 較少的記憶體碎片化導致更順暢的性能。


基準測試結果

ReadSimpleImage(读取简单图像):

  • 2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。

    Optimized Ocr Processing 1 related to 基準測試結果

  • 記憶體:81.65 MB,比2024.11版本少31.27%,比2024.12版本少42.12%。

    Optimized Ocr Processing 2 related to 基準測試結果

    讀取多個文件

    優化版本(2025.2): 20706.6 毫秒,比快 15.61%(2024.11)版本。

    Optimized Ocr Processing 3 related to 基準測試結果

  • 記憶體:1.2 GB,比Legacy少4.76%。
  • Pdfium 版本:未通過基準測試

    Optimized Ocr Processing 4 related to 基準測試結果

實際應用:企業如何受益

法律與合規:更快速的文件數位化

一家律師事務所數位化法律合同時,之前在處理多頁掃描協議時面臨慢速的OCR處理。 利用 IronOCR 2025.2,他們現在可以將合約轉換為可搜尋的 PDF,其速度快近 50%,從而簡化案件研究和合規檢查。

醫療保健:高效的醫療紀錄處理

醫院和診所經常處理患者記錄的大型 TIFF 掃描檔。 以前,將一份24頁的病歷文檔轉換為可搜尋的PDF需要超過一分鐘。 現在,透過改進的記憶體管理和並行處理,這項任務僅需 32 秒即可完成,從而更快地訪問關鍵的患者數據。

財務與審計:處理批量報告

會計公司掃描數百頁的財務報告需要一個解決方案來保持文件大小的可控,同時確保文字保持可搜尋。 透過IronOCR的精細渲染,他們現在可以更有效率地處理多文件掃描,減少處理時間和最終檔案大小。

研究與檔案:保存歷史文獻

從事掃描研究論文和歷史文件的檔案管理員需要高度準確的文字識別,同時保持文件存儲的輕量化。 最新的優化使他們能夠處理大規模的文件轉換,並顯著降低處理開銷。


可搜索PDF的演變:一個過程,而非單單跳躍

優化不是一個單一的飛躍,而是一個由現實世界的挑戰塑造的逐步過程。

  1. 2024.11引入搜尋式 PDF 文件大小減少功能,但遇到了效能限制。

    2.2024.12渲染改進減少了 PDF 文件的大小,但暴露了大型 TIFF 圖像的速度和記憶體問題。

  2. 2025.1改進了頁面旋轉處理的第一個瓶頸,將處理時間提高了10%

  3. 2025.2: 全面的優化提升了 49% 的性能,改善了記憶體效率,並使大容量可搜索 PDF 的處理更加順暢。

    每次更新都建立在先前的經驗之上,從而使得 OCR 引擎變得更快、更高效,並為高需求的工作負載做好準備


體驗最新 IronOCR 更新的強大功能

如果您的業務依賴於快速、高效且準確的 OCR 處理,此IronOCR 2025.2 更新將提供您所需的速度和優化。

試用免費試用密鑰30天並體驗過程! 🚀

喬迪·巴迪亞

喬迪·巴迪亞

軟體工程師

 LinkedIn |  Website

Jordi 最擅長 Python、C# 和 C++,當他不在 Iron Software 發揮技能時,他會進行遊戲編程。他負責產品測試、產品開發和研究,為持續產品改進增添了巨大的價值。多樣化的經驗使他感到挑戰和投入,他說這是與 Iron Software 合作的最喜歡的方面之一。Jordi 在佛羅里達州邁阿密長大,並在佛羅里達大學學習計算機科學和統計學。
下一個 >
在 C# 中進行 OCR 發票處理(開發者教程)