IronOCR 里程碑 Milestone: Up to 98% Memory Reduction for TIFF Processing Curtis Chau 更新日期:9月 4, 2025 Download IronOCR NuGet 下載 DLL 下載 Windows 安裝程式 Start Free Trial Copy for LLMs Copy for LLMs Copy page as Markdown for LLMs Open in ChatGPT Ask ChatGPT about this page Open in Gemini Ask Gemini about this page Open in Grok Ask Grok about this page Open in Perplexity Ask Perplexity about this page Share Share on Facebook Share on X (Twitter) Share on LinkedIn Copy URL Email article This article was translated from English: Does it need improvement? Translated View the article in English 突破:從 3.7 GB 到 77 MB。 在IronOCR 2025.9中,我們達成了另一個里程碑:將 TIFF 文件處理的記憶體消耗降低了 98%。 以前需要3,770 MB記憶體才能處理的 10 頁 TIFF 文件,現在只需要 77 MB,而實際完成速度卻快了 11.9%。 這並非漸進式的改進。 這是對 OCR 如何處理記憶體分配的基本重新想像。 我們解決的問題 TIFF 檔案:必要但記憶體密集。 TIFF 檔案是各產業文件存檔的黃金標準。 法律事務所需要像素完美的法庭文件。 醫療實務以絕對忠實的方式保存病患記錄。 保險公司維護符合法規的索賠文件。 政府機構的公共記錄存檔長達數十年之久。 但這樣的品質是有代價的。典型的 10 頁 PDF 文件可能佔用 2 MB 的空間,但同樣的內容在 TIFF 檔案中卻會擴充到 100 MB 以上,而傳統的 OCR 處理方式會讓需求成倍增加。 工程解決方案。 From Monolithic to Streaming Architecture 我們的工程團隊重新構想了記憶體分配方式。 取代傳統的單一載入模式,我們實作了一個串流架構,從根本上改變了 IronOCR 處理文件的方式: 傳統方法: 載入完整 TIFF → 處理所有頁面 → 釋放記憶體 記憶體使用量:3,770 MB 新的串流方式: 載入頁1→ 過程 → 發佈 → 載入頁 2 → 過程 → 發佈... 記憶體使用量:77 MB(每頁最多) 記憶體使用量減少 98 **主要技術創新**最高可減少 98% 的工作量增加49倍3.9 倍的速度可根據要求提供基準方法和競爭對手配置的詳細資訊。 ### **實際驗證**。 改進的範圍超越合成基準: * **法律事務所案例研究**:處理 200 份法庭文件現在可以不中斷地完成 * [**醫療實務**](https://ironsoftware.com/solutions/healthcare-and-pharmaceuticals/):病歷數位化連續執行,無記憶錯誤 * **保險公司**:理賠處理吞吐量在現有硬體上提升 50 倍 * [**政府機構**](https://ironsoftware.com/solutions/government-and-public-services/):公共記錄存檔的規模從每天數百個文件擴大到數千個文件 ## **影響力** 此更新有助於文件處理: **之前**:組織面對昂貴的硬體升級或接受有限的吞吐量之間的困難抉擇 **之後**:我們的客戶現在可以處理多 50 倍的文件,而且可靠性也提高了 ## **技術深究** ### **記憶體分配策略**。 串流架構實現了數種先進的技術: 1.**記憶體池化**:預先分配的緩衝區可減少垃圾回收的壓力 2.**懶惰載入**:頁面僅在需要時才載入,而非預先載入 3.**壓縮**:內部資料結構使用有效率的編碼 4.**管道處理**:重疊的 I/O 和處理將吞吐量最大化 ## **展望未來**。 ### **持續創新**。 這個里程碑代表了我們對解決實際工程挑戰的承諾。 雖然 98% 的記憶體減量看似已是極限,但我們仍繼續探索: * 針對更大型的文件作進一步的串流最佳化 * 相容操作的 GPU 加速 * 分散式處理架構 * AI 增強記憶體預測演算法 **為我們設定新標準**