在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
在 2024.12,IronOCR引入了一项功能,在处理时显著减少了生成的可搜索PDF的文件大小多页TIFF图像. 虽然此改进实现了更小的输出文件,但也带来了处理速度和内存使用方面的性能挑战。
初步优化2025.1开始解决这些性能问题。 全面的性能改进后来在2025.2版本中发布,该版本在解决处理多页文档时的速度和内存挑战的同时保持了较小的文件大小。
一个主要的性能瓶颈是页面旋转。 每个操作都会创建一个新实例,而不是重用现有的实例,这导致了不必要的处理时间和内存消耗。这种低效率导致处理时间和内存消耗增加,特别是在转换大型TIFF文件时。可搜索的 PDF.
IronOCR 2025.1 的初始修复重点是优化实例重用以进行页面旋转。 这导致了适度的10%改进,将处理时间从63秒减少到57秒。 但这只是个开始。
随着我们更深入地研究,我们发现了几个其他需要改进的领域。
可搜索PDF渲染改进
每一项优化都建立在上一项的基础上,最终实现了IronOcr 2025.2的突破性改进。
通过这些增强功能,IronOCR 2025.2 更新带来了显著的性能提升:
✔ 更快的处理速度:
单张图像OCR快35%。
✔ 更高效的内存使用:
较少的内存碎片化导致更流畅的性能。
ReadSimpleImage:
2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。
内存:81.65 MB,比2024.11版本少31.27%,比2024.12版本少42.12%。
ReadMultipleDocs:
优化版本(2025.2): 20706.6 毫秒,比快 15.61%(2024.11)版本。
Pdfium版本:未通过基准测试
一家律师事务所在数字化法律合同时,之前在处理多页扫描协议时面临着缓慢的OCR处理问题。 使用IronOCR 2025.2,他们现在可以将合同转换为可搜索的PDF,其速度几乎提高了50%,从而简化了案件研究和合规检查。
医院和诊所经常处理大量患者记录的TIFF扫描件。 以前,将一份24页的医疗历史文件转换为可搜索的PDF需要一分钟以上。 现在,通过改进的内存管理和并发处理,该任务只需32秒即可完成,从而更快地访问关键的病人数据。
会计公司扫描数百页财务报告,需要一种解决方案,以保持文件大小可控,同时确保文本可被搜索。 通过IronOCR的精细渲染,他们现在可以更高效地处理多文档扫描,减少处理时间和最终文件大小。
档案员在处理扫描的研究论文和历史文件时,需要高度准确的文本识别,同时保持文件存储轻量化。 最新的优化使他们能够以显著较低的处理开销处理大型文档转换。
优化不是一次飞跃,而是一个由现实挑战塑造的循序渐进的过程。
2024.11: 为可搜索PDF引入了文件大小减少的功能,但遇到了性能限制。
2024.12渲染改进减少了PDF文件的大小,但暴露了大TIFF图像的速度和内存问题。
3.2025.1解决了页面旋转处理中的首个瓶颈,处理时间提高了10%。
2025.2:综合优化带来了49% 的性能提升,提高了内存效率,并改善了大容量可搜索 PDF 的处理流畅性。
每次更新都基于前一次的经验教训,从而打造出一个速度更快、效率更高且能够承担高需求工作的OCR引擎。
如果您的业务依赖于快速、高效和准确的OCR处理,那么这个IronOCR 2025.2更新将为您提供所需的速度和优化。
试用免费试用密钥30天体验这个过程! 🚀
10 个 .NET API 产品 用于您的办公文件