跳至頁尾內容
使用 IRONOCR

優化效能,實現更快、更有效率的OCR處理

2024.12IronOCR引入了一項功能,在處理多頁 TIFF 影像時,顯著減少了生成的可搜尋 PDF 的檔案大小。 雖然這種改進實現了更小的輸出文件,但也帶來了處理速度和記憶體使用方面的效能挑戰。

2025.1版本開始進行初步最佳化,以解決這些效能問題。 全面的效能改進隨後在 2025.2 版本中實現,該版本在保持較小檔案大小的同時,解決了處理多頁文件時的速度和記憶體挑戰。


找出瓶頸:頁面旋轉和處理時間

頁面旋轉是效能瓶頸之一。 每個操作都建立了一個新實例,而不是重複使用現有實例,導致不必要的處理時間和記憶體消耗。 這種低效導致處理時間和記憶體消耗增加,尤其是在將大型 TIFF 檔案轉換為可搜尋的 PDF 檔案時。

最佳化版本(IronOCR 2025.2)

IronOCR 2025.1的初始修復重點在於最佳化頁面輪換的實例重用。 這使得處理時間略微提高了 10%,從 63 秒減少到 57 秒。 但這只是個開始。

隨著研究的深入,我們發現了其他幾個需要改進的面向。


系統性績效提升

需要改進的關鍵領域

  • 實例重複使用以實現重複操作
  • 優化並發處理
  • 記憶體分配與物件生命週期管理
  • 可搜尋 PDF 渲染改進

這些優化措施都是在前一項的基礎上進行的,最終在IronOcr 2025.2中取得了突破性改進。


關鍵觀察:發生了哪些變化?

透過這些改進,IronOcr 2025.2 更新帶來了顯著的效能提升:

處理速度更快:

  • 24 頁可搜尋 PDF 的處理速度提高了 49%63 秒 → 32 秒)。
    *多文件處理能力提升了45%*
    單張影像 OCR**速度提升 35%

更有效率的記憶體使用:

物件分配減少了高達 63%。
記憶體碎片減少,效能更流暢。


基準測試結果

讀取簡單映像:

  • 2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。

優化的 OCR 處理 1

  • 記憶體:81.65 MB,比 2024.11 版本減少 31.27%,比 2024.12 版本減少 42.12%。

優化的 OCR 處理 2

讀取多個文檔:

最佳化版本(2025.2):20706.6 毫秒,比(2024.11)版本快 15.61%。

優化的 OCR 處理 3

  • 記憶體:1.2 GB,比傳統記憶體少 4.76%。
  • Pdfium 版本:基準測試失敗

優化的 OCR 處理 4

實際應用:企業如何從中受益

法律與合規:加速文件數位化

以前,一家律師事務所在處理多頁掃描協議時,會面臨 OCR 處理速度慢的問題,導致法律合約數位化困難。 借助 IronOcr 2025.2,他們現在可以將合約轉換為可搜尋的 PDF,速度提高近 50%,從而簡化案例研究和合規性檢查。

醫療保健:高效率的醫療記錄處理

醫院和診所經常需要處理大量的病人病歷 TIFF 掃描件。 以前,將一份 24 頁的病史文件轉換為可搜尋的 PDF 文件需要一分多鐘。 現在,透過改進記憶體管理和並發處理,這項任務只需 32 秒即可完成,從而更快地存取關鍵的患者資料。

財務與審計:批量報告處理

會計事務所需要掃描數百頁財務報告,因此需要一種解決方案,既能控製文件大小,又能確保文字可搜尋。 借助 IronOCR 的改進渲染技術,他們現在可以更有效率地處理多文件掃描,從而減少處理時間和最終文件大小。

研究與檔案:保存歷史文獻

檔案管理員在處理掃描的研究論文和歷史文件時,需要高度精確的文本識別,同時也要保持文件輕量以便儲存。 最新的最佳化使它們能夠以顯著降低的處理開銷來處理大規模文件轉換。


可搜尋PDF的演變:一個過程,而非一次飛躍

優化不是一蹴可幾的,而是一個循序漸進的過程,受到現實世界挑戰的影響。

  1. 2024.11 :****引入了可搜尋 PDF 的檔案大小縮減機制,但遇到了效能限制。
  2. 2024.12 :****渲染改進減小了 PDF 檔案的大小,但也暴露出處理大型 TIFF 檔案時的速度和記憶體問題。
  3. 2025.1**解決了頁面輪換處理中的第一個瓶頸,處理時間提高了10%** 。
  4. 2025.2:全面的優化帶來了49% 的效能提升,提高了記憶體效率,並能更流暢地處理大型可搜尋 PDF 檔案。

每次更新都吸取了上一次更新的經驗教訓,從而使 OCR 引擎速度更快、效率更高,能夠應對高需求的工作負載


體驗最新IronOcr更新的強大功能

如果您的業務依賴快速、高效和準確的 OCR 處理,那麼IronOCR 2025.2 更新將為您提供所需的速度和最佳化。

免費試用金鑰,可免費試用 30 天,體驗完整流程!

常見問題解答

在OCR處理中使用實例重複使用有哪些好處?

IronOCR 2025.2 中實現的 OCR 處理實例重用,減少了每次操作創建新實例的開銷,從而提高了處理速度並降低了記憶體消耗。

並發處理如何提升OCR效能?

IronOCR 2025.2 中的並發處理功能可同時處理多個 OCR 任務,從而顯著提高文件處理的整體速度和效率。

最新OCR更新對PDF渲染進行了哪些最佳化?

IronOCR 2025.2 的最新更新包括改進的 PDF 渲染,從而提高了將影像轉換為可搜尋 PDF 文件的品質和速度。

最新版本的OCR軟體在記憶體使用上有哪些改進?

IronOCR 2025.2 透過優化記憶體分配和減少碎片化來提高記憶體使用率,從而將整體記憶體消耗降低高達 63%。

為了提高OCR軟體的處理速度,解決了哪些問題?

IronOCR 2025.2 解決了先前的效能瓶頸問題,例如頁面輪換過程效率低下,從而顯著加快了處理速度。

律師事務所如何從最新的OCR軟體更新中受益?

法律公司可以利用 IronOCR 2025.2 將法律文件轉換為可搜尋的 PDF,速度提升近 50%,有助於高效的研究和合規管理。

OCR 更新為處理多頁 TIFF 檔案帶來了哪些優勢?

IronOCR 2025.2 的更新可高效處理大型多頁 TIFF 文件,處理速度提升高達 49%,記憶體管理也得到改進,使其適用於大批量文件處理。

醫療保健產業如何從更快的OCR處理速度中受益?

IronOCR 2025.2 能夠更快地處理患者記錄和大型 TIFF 掃描文件,從而更快地獲取關鍵的醫療信息,使醫療保健行業受益。

在讀取多個文檔方面有哪些改進?

IronOCR 2025.2 改進了ReadMultipleDocs功能,從而在處理批次文件轉換時實現了更快的處理速度和更有效率的記憶體使用。

OCR更新如何幫助存檔和研究?

IronOCR 2025.2 能夠以更低的處理開銷轉換大量文檔,在確保高效存儲的同時保持文檔完整性,從而使檔案管理員和研究人員受益。

坎納奧帕特·烏東潘特
軟體工程師
在成為軟體工程師之前,Kannapat 在日本北海道大學完成了環境資源專業的博士學位。在攻讀博士學位期間,他還加入了生物生產工程系下屬的車輛機器人實驗室。 2022 年,他憑藉 C# 技能加入了 Iron Software 的工程團隊,專注於 IronPDF 的開發。 Kannapat 非常珍惜這份工作,因為他可以直接向 IronPDF 大部分程式碼的編寫者學習。除了與同事學習之外,Kannapat 也享受在 Iron Software 工作的社交氛圍。工作之餘,Kannapat 通常會玩 PS5 遊戲或重溫《最後生還者》。