使用 IRONOCR

优化性能以实现更快速、更高效的OCR处理

发布 2025年二月19日
分享:

2024.12IronOCR引入了一项功能,在处理时显著减少了生成的可搜索PDF的文件大小多页TIFF图像. 虽然此改进实现了更小的输出文件,但也带来了处理速度和内存使用方面的性能挑战。

初步优化2025.1开始解决这些性能问题。 全面的性能改进后来在2025.2版本中发布,该版本在解决处理多页文档时的速度和内存挑战的同时保持了较小的文件大小。


识别瓶颈:页面旋转与处理时间

一个主要的性能瓶颈是页面旋转。 每个操作都会创建一个新实例,而不是重用现有的实例,这导致了不必要的处理时间和内存消耗。这种低效率导致处理时间和内存消耗增加,特别是在转换大型TIFF文件时。可搜索的 PDF.

优化版本 (IronOCR 2025.2)

IronOCR 2025.1 的初始修复重点是优化实例重用以进行页面旋转。 这导致了适度的10%改进,将处理时间从63秒减少到57秒。 但这只是个开始。

随着我们更深入地研究,我们发现了几个其他需要改进的领域。


系统性能增强

关键改进领域

  • 实例重用以进行重复操作
  • 优化并发处理
  • 内存分配与对象生命周期管理
  • 可搜索PDF渲染改进

    每一项优化都建立在上一项的基础上,最终实现了IronOcr 2025.2的突破性改进。


关键观察:有什么变化?

通过这些增强功能,IronOCR 2025.2 更新带来了显著的性能提升:

更快的处理速度

  • 24页可搜索PDF现在处理速度快49%(63秒 → 32秒).
  • 多文档处理提高了45%。
  • 单张图像OCR快35%。

    更高效的内存使用

  • 对象分配减少高达63%。
  • 较少的内存碎片化导致更流畅的性能。


基准测试结果

ReadSimpleImage:

  • 2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。

    Optimized Ocr Processing 1 related to 基准测试结果

  • 内存:81.65 MB,比2024.11版本少31.27%,比2024.12版本少42.12%。

    Optimized Ocr Processing 2 related to 基准测试结果

    ReadMultipleDocs:

    优化版本(2025.2): 20706.6 毫秒,比快 15.61%(2024.11)版本。

    Optimized Ocr Processing 3 related to 基准测试结果

  • 内存:1.2 GB,比旧版减少4.76%。
  • Pdfium版本:未通过基准测试

    Optimized Ocr Processing 4 related to 基准测试结果

实际应用:企业如何受益

法律合规:更快速的文档数字化

一家律师事务所在数字化法律合同时,之前在处理多页扫描协议时面临着缓慢的OCR处理问题。 使用IronOCR 2025.2,他们现在可以将合同转换为可搜索的PDF,其速度几乎提高了50%,从而简化了案件研究和合规检查。

医疗保健:高效的病历处理

医院和诊所经常处理大量患者记录的TIFF扫描件。 以前,将一份24页的医疗历史文件转换为可搜索的PDF需要一分钟以上。 现在,通过改进的内存管理和并发处理,该任务只需32秒即可完成,从而更快地访问关键的病人数据。

财务与审计:处理批量报告

会计公司扫描数百页财务报告,需要一种解决方案,以保持文件大小可控,同时确保文本可被搜索。 通过IronOCR的精细渲染,他们现在可以更高效地处理多文档扫描,减少处理时间和最终文件大小。

研究与档案:保护历史文献

档案员在处理扫描的研究论文和历史文件时,需要高度准确的文本识别,同时保持文件存储轻量化。 最新的优化使他们能够以显著较低的处理开销处理大型文档转换。


可搜索PDF的演变:一个过程,而不仅仅是飞跃

优化不是一次飞跃,而是一个由现实挑战塑造的循序渐进的过程。

  1. 2024.11: 为可搜索PDF引入了文件大小减少的功能,但遇到了性能限制。

  2. 2024.12渲染改进减少了PDF文件的大小,但暴露了大TIFF图像的速度和内存问题。

    3.2025.1解决了页面旋转处理中的首个瓶颈,处理时间提高了10%

  3. 2025.2:综合优化带来了49% 的性能提升,提高了内存效率,并改善了大容量可搜索 PDF 的处理流畅性。

    每次更新都基于前一次的经验教训,从而打造出一个速度更快、效率更高且能够承担高需求工作的OCR引擎。


体验最新IronOCR更新的强大功能

如果您的业务依赖于快速、高效和准确的OCR处理,那么这个IronOCR 2025.2更新将为您提供所需的速度和优化。

试用免费试用密钥30天体验这个过程! 🚀

雷根·彭

雷根·彭

软件工程师

 LinkedIn

Regan毕业于雷丁大学,拥有电子工程学士学位。在加入Iron Software之前,他的前工作职位要求他专注于单一任务;他在Iron Software最喜欢的是能进行多种工作,无论是增加销售价值、技术支持、产品开发还是营销。他喜欢了解开发人员如何使用Iron Software的库,并利用这些知识不断改进文档和开发产品。
下一步 >
C#中OCR发票处理(开发者教程)