跳過到頁腳內容
使用 IRONOCR

優化性能以提供更快、更高效的 OCR 處理

2024.12IronOCR引入了一項功能,在處理多頁 TIFF 影像時,顯著減少了生成的可搜尋 PDF 的檔案大小。 雖然這種改進實現了更小的輸出文件,但也帶來了處理速度和記憶體使用方面的效能挑戰。

2025.1版本開始進行初步最佳化,以解決這些效能問題。 全面的效能改進隨後在 2025.2 版本中實現,該版本在保持較小檔案大小的同時,解決了處理多頁文件時的速度和記憶體挑戰。


找出瓶頸:頁面旋轉和處理時間

頁面旋轉是效能瓶頸之一。 每個操作都建立了一個新實例,而不是重複使用現有實例,導致不必要的處理時間和記憶體消耗。 這種低效導致處理時間和記憶體消耗增加,尤其是在將大型 TIFF 檔案轉換為可搜尋的 PDF 檔案時。

最佳化版本(IronOCR 2025.2)

IronOCR 2025.1的初始修復重點在於最佳化頁面輪換的實例重用。 這使得處理時間略微提高了 10%,從 63 秒減少到 57 秒。 但這只是個開始。

隨著研究的深入,我們發現了其他幾個需要改進的面向。


系統性績效提升

需要改進的關鍵領域

  • 實例重複使用以實現重複操作
  • 優化並發處理
  • 記憶體分配與物件生命週期管理
  • 可搜尋 PDF 渲染改進

這些優化措施都是在前一項的基礎上進行的,最終在IronOcr 2025.2中取得了突破性改進。


關鍵觀察:發生了哪些變化?

透過這些改進,IronOcr 2025.2 更新帶來了顯著的效能提升:

更快的處理速度

  • 24 頁可搜尋 PDF 的處理速度提高了 49%63 秒 → 32 秒)。
    *多文件處理能力提升了45%*
    單張影像 OCR**速度提升 35%

更有效率的記憶體使用

物件分配減少了高達 63%。
記憶體碎片減少,效能更流暢。


基準測試結果

讀取簡單映像:

  • 2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。

優化的 OCR 處理 1

  • 記憶體:81.65 MB,比 2024.11 版本減少 31.27%,比 2024.12 版本減少 42.12%。

優化的 OCR 處理 2

讀取多個文檔:

最佳化版本(2025.2):20706.6 毫秒,比(2024.11)版本快 15.61%。

優化的 OCR 處理 3

  • 記憶體:1.2 GB,比傳統記憶體少 4.76%。
  • Pdfium 版本:基準測試失敗

優化的 OCR 處理 4

實際應用:企業如何從中受益

法律與合規:加速文件數位化

以前,一家律師事務所在處理多頁掃描協議時,會面臨 OCR 處理速度慢的問題,導致法律合約數位化困難。 借助 IronOcr 2025.2,他們現在可以將合約轉換為可搜尋的 PDF,速度提高近 50%,從而簡化案例研究和合規性檢查。

醫療保健:高效率的醫療記錄處理

醫院和診所經常需要處理大量的病人病歷 TIFF 掃描件。 以前,將一份 24 頁的病史文件轉換為可搜尋的 PDF 文件需要一分多鐘。 現在,透過改進記憶體管理和並發處理,這項任務只需 32 秒即可完成,從而更快地存取關鍵的患者資料。

財務與審計:批量報告處理

會計事務所需要掃描數百頁財務報告,因此需要一種解決方案,既能控製文件大小,又能確保文字可搜尋。 借助 IronOCR 的改進渲染技術,他們現在可以更有效率地處理多文件掃描,從而減少處理時間和最終文件大小。

研究與檔案:保存歷史文獻

檔案管理員在處理掃描的研究論文和歷史文件時,需要高度精確的文本識別,同時也要保持文件輕量以便儲存。 最新的最佳化使它們能夠以顯著降低的處理開銷來處理大規模文件轉換。


可搜尋PDF的演變:一個過程,而非一次飛躍

優化不是一蹴可幾的,而是一個循序漸進的過程,受到現實世界挑戰的影響。

  1. 2024.11 引入了可搜尋 PDF 的檔案大小縮減功能,但遇到了效能限制。
  2. 2024.12 渲染改進減少了 PDF 檔案大小,但也暴露了大型 TIFF 檔案的速度和記憶體問題。
  3. 2025.1 解決了頁面輪換處理中的第一個瓶頸,處理時間提高了10%
  4. 2025.2:全面的優化帶來了49% 的效能提升,提高了記憶體效率,並能更流暢地處理大型可搜尋 PDF 檔案。

每次更新都吸取了上一次更新的經驗教訓,從而使 OCR 引擎速度更快、效率更高,能夠應對高需求的工作負載


體驗最新IronOcr更新的強大功能

如果您的業務依賴快速、高效和準確的 OCR 處理,那麼IronOCR 2025.2 更新將為您提供所需的速度和最佳化。

免費試用金鑰,可免費試用 30 天,體驗完整流程!

常見問題解答

在 OCR 處理中使用實例重複使用有什麼好處?

IronOCR 2025.2 實現了 OCR 處理中的實例重複使用,減少了每次操作都要創建新實例的開銷,從而提高了處理速度,降低了記憶體消耗。

並發處理如何提升 OCR 效能?

IronOCR 2025.2 中的並發處理功能可同時處理多個 OCR 任務,大幅提升文件處理的整體速度與效率。

在最新的 OCR 更新中,對 PDF 渲染進行了哪些優化?

IronOCR 2025.2 的最新更新包括改進的 PDF 渲染,提高了將圖像轉換為可搜索 PDF 文件的質量和速度。

最新版本的 OCR 軟體如何改善記憶體使用率?

在 IronOCR 2025.2 中,透過最佳化記憶體分配和減少碎片化,改善了記憶體使用率,使整體記憶體消耗降低達 63%。

為了提高 OCR 軟體的處理速度,解決了哪些問題?

IronOCR 2025.2 解決了之前的效能瓶頸,例如低效的頁面輪轉程序,使處理時間大幅加快。

法律事務所如何從最新的 OCR 軟體更新中獲益?

法律事務所可從 IronOCR 2025.2 中獲益,將法律文件轉換為可搜尋的 PDF 檔案的速度幾乎快了 50%,有助於有效率的研究與合規管理。

OCR 更新對於處理多頁 TIFF 有哪些優點?

IronOCR 2025.2 中的更新提供了對大型多頁 TIFF 的高效處理,處理速度提升了 49%,並改善了記憶體管理,適合大批量的文件處理。

醫療保健產業如何從更快速的 OCR 處理中獲益?

IronOCR 2025.2 可更快速地處理病患記錄和大型 TIFF 掃描,讓醫療照護產業從中獲益,從而更快速地存取重要的醫療資訊。

在閱讀多個文件時有哪些改進?

IronOCR 2025.2 改善了 ReadMultipleDocs 功能,在處理大量文件轉換時,處理時間更快,記憶體使用效率更高。

OCR 更新對歸檔和研究有何幫助?

檔案管理員和研究人員可從 IronOCR 2025.2 中獲益,以減少處理開銷的方式轉換大量文件,在確保有效儲存的同時,保留文件的完整性。

Kannaopat Udonpant
軟體工程師
在成為软件工程師之前,Kannapat 從日本北海道大學完成了環境資源博士學位。在追逐學位期间,Kannapat 還成為了生產工程系一部份——汽車机器人实验室的成員。2022 年,他利用他的 C# 技能加入 Iron Software 的工程團隊, 專注於 IronPDF。Kannapat 珍惜他的工作,因为他直接向编写大部分 IronPDF 使用的代码的开发者学习。除了同行学习,Kannapat 还喜欢在 Iron Software 工作的社交十环。当他不编写代码或文档时,Kannapat 通常在他的 PS5 上打游戏或重看《The Last of Us》。