優化性能以提供更快、更高效的 OCR 處理
2024.12 , IronOCR引入了一項功能,在處理多頁 TIFF 影像時,顯著減少了生成的可搜尋 PDF 的檔案大小。 雖然這種改進實現了更小的輸出文件,但也帶來了處理速度和記憶體使用方面的效能挑戰。
2025.1版本開始進行初步最佳化,以解決這些效能問題。 全面的效能改進隨後在 2025.2 版本中實現,該版本在保持較小檔案大小的同時,解決了處理多頁文件時的速度和記憶體挑戰。
找出瓶頸:頁面旋轉和處理時間
頁面旋轉是效能瓶頸之一。 每個操作都建立了一個新實例,而不是重複使用現有實例,導致不必要的處理時間和記憶體消耗。 這種低效導致處理時間和記憶體消耗增加,尤其是在將大型 TIFF 檔案轉換為可搜尋的 PDF 檔案時。
最佳化版本(IronOCR 2025.2)
IronOCR 2025.1的初始修復重點在於最佳化頁面輪換的實例重用。 這使得處理時間略微提高了 10%,從 63 秒減少到 57 秒。 但這只是個開始。
隨著研究的深入,我們發現了其他幾個需要改進的面向。
系統性績效提升
需要改進的關鍵領域
- 實例重複使用以實現重複操作
- 優化並發處理
- 記憶體分配與物件生命週期管理
- 可搜尋 PDF 渲染改進
這些優化措施都是在前一項的基礎上進行的,最終在IronOcr 2025.2中取得了突破性改進。
關鍵觀察:發生了哪些變化?
透過這些改進,IronOcr 2025.2 更新帶來了顯著的效能提升:
處理速度更快:
- 24 頁可搜尋 PDF 的處理速度提高了 49% ( 63 秒 → 32 秒)。
*多文件處理能力提升了45%* 。
單張影像 OCR**速度提升 35% 。
更有效率的記憶體使用:
物件分配減少了高達 63%。
記憶體碎片減少,效能更流暢。
基準測試結果
讀取簡單映像:
- 2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。
- 記憶體:81.65 MB,比 2024.11 版本減少 31.27%,比 2024.12 版本減少 42.12%。
讀取多個文檔:
最佳化版本(2025.2):20706.6 毫秒,比(2024.11)版本快 15.61%。
- 記憶體:1.2 GB,比傳統記憶體少 4.76%。
- Pdfium 版本:基準測試失敗
實際應用:企業如何從中受益
法律與合規:加速文件數位化
以前,一家律師事務所在處理多頁掃描協議時,會面臨 OCR 處理速度慢的問題,導致法律合約數位化困難。 借助 IronOcr 2025.2,他們現在可以將合約轉換為可搜尋的 PDF,速度提高近 50%,從而簡化案例研究和合規性檢查。
醫療保健:高效率的醫療記錄處理
醫院和診所經常需要處理大量的病人病歷 TIFF 掃描件。 以前,將一份 24 頁的病史文件轉換為可搜尋的 PDF 文件需要一分多鐘。 現在,透過改進記憶體管理和並發處理,這項任務只需 32 秒即可完成,從而更快地存取關鍵的患者資料。
財務與審計:批量報告處理
會計事務所需要掃描數百頁財務報告,因此需要一種解決方案,既能控製文件大小,又能確保文字可搜尋。 借助 IronOCR 的改進渲染技術,他們現在可以更有效率地處理多文件掃描,從而減少處理時間和最終文件大小。
研究與檔案:保存歷史文獻
檔案管理員在處理掃描的研究論文和歷史文件時,需要高度精確的文字識別,同時也要保持文件輕量以便儲存。 最新的最佳化使它們能夠以顯著降低的處理開銷來處理大規模文件轉換。
可搜尋PDF的演變:一個過程,而非一次飛躍
優化不是一蹴可幾的,而是一個循序漸進的過程,受到現實世界挑戰的影響。
- 2024.11 :****引入了可搜尋 PDF 的檔案大小縮減機制,但遇到了效能限制。
- 2024.12 :****渲染改進減小了 PDF 檔案的大小,但也暴露出處理大型 TIFF 檔案時的速度和記憶體問題。
- 2025.1 :**解決了頁面輪換處理中的第一個瓶頸,處理時間提高了10%** 。
- 2025.2:全面的優化帶來了49% 的效能提升,提高了記憶體效率,並能更流暢地處理大型可搜尋 PDF 檔案。
每次更新都吸取了上一次更新的經驗教訓,從而使 OCR 引擎速度更快、效率更高,能夠應對高需求的工作負載。
體驗最新IronOcr更新的強大功能
如果您的業務依賴快速、高效和準確的 OCR 處理,那麼IronOCR 2025.2 更新將為您提供所需的速度和最佳化。
免費試用金鑰,可免費試用 30 天,體驗完整流程!
常見問題解答
使用實例重用進行OCR處理的好處是什麼?
在IronOCR 2025.2中實施的OCR處理中的實例重用減少了每次操作創建新實例的開銷,從而提高了處理速度和降低了內存消耗。
並行處理是如何提高OCR性能的?
IronOCR 2025.2中的並行處理允許多個OCR任務同時處理,顯著提高了文件處理的總體速度和效率。
在最新的OCR更新中對PDF渲染做了哪些優化?
IronOCR 2025.2的最新更新包括改進的PDF渲染,增強了將圖像轉換為可搜尋PDF文檔的質量和速度。
在最新版本的OCR軟件中,如何改善內存使用?
IronOCR 2025.2通過優化內存分配和減少內存碎片,改善內存使用,降低了多達63%的總體內存消耗。
為了提高OCR軟件的處理速度,解決了哪些問題?
IronOCR 2025.2解決了此前的性能瓶頸,比如低效的頁面旋轉過程,從而顯著縮短了處理時間。
法律公司如何從最新的OCR軟件更新中受益?
法律公司可以從IronOCR 2025.2中受益,將法律文檔幾乎快速50%轉換為可搜尋的PDF,從而有助於高效的研究和合規管理。
OCR更新在處理多頁TIFF方面提供了哪些優勢?
IronOCR 2025.2的更新提供了對大規模多頁TIFF的高效處理,高達49%的更快處理和改進的內存管理,使其適合大批量文件處理。
醫療行業如何受益於更快的OCR處理?
醫療行業從IronOCR 2025.2中受益,快速處理病人記錄和大型TIFF掃描,從而更快地獲取重要的醫療信息。
在讀取多個文檔方面做了哪些改進?
IronOCR 2025.2改進了ReadMultipleDocs功能,從而在處理批量文件轉換時提高了處理速度和更高效的內存使用。
OCR更新如何幫助存檔和研究?
檔案工作者和研究人員可以從IronOCR 2025.2中受益,以減少處理開銷來轉換大批量文件,同時保護文件完整性並確保高效存儲。

