使用 IRONOCR

优化性能以实现更快速、更高效的OCR处理

Kannaopat Udonpant
坎那帕·乌东攀
2025年二月19日
分享:

2024.12IronOCR 引入了一项功能,在处理多页 TIFF 图像显著减少生成的可搜索 PDF 文件的大小。 虽然此改进实现了更小的输出文件,但也带来了处理速度和内存使用方面的性能挑战。

2025.1中的初步优化开始解决这些性能问题。 全面的性能改进后来在2025.2版本中发布,该版本在解决处理多页文档时的速度和内存挑战的同时保持了较小的文件大小。


识别瓶颈:页面旋转及处理时间

一个主要的性能瓶颈是页面旋转。 每次操作都会创建一个新的实例,而不是重用现有的实例,导致不必要的处理时间和内存消耗。这种低效导致了处理时间和内存消耗的增加,特别是在将大型TIFF转换为可搜索PDF时。

优化版本 (IronOCR 2025.2)

IronOCR 2025.1的初始修复专注于优化页面旋转的实例重用。 这导致了适度的10%改进,将处理时间从63秒减少到57秒。 但这只是个开始。

随着我们更深入地研究,我们发现了几个其他需要改进的领域。


#

系统性能提升

关键改进领域

  • 实例重用以进行重复操作
  • 优化并发处理
  • 内存分配与对象生命周期管理
  • 可搜索PDF渲染改进

    所有这些优化都是在前一个优化的基础上进行的,从而在IronOcr 2025.2中实现了突破性的改进。


关键观察:有什么变化?

通过这些增强功能,IronOCR 2025.2 更新带来了显著的性能提升:

更快的处理

  • 24 页可搜索 PDF 现在处理速度提高了 49%63s → 32s)。
  • 多文档处理提高了45%
  • 单张图像OCR35%

    更高效的内存使用

  • 对象分配减少高达63%。
  • 较少的内存碎片化导致更流畅的性能。


基准测试结果

ReadSimpleImage:

  • 2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。

    Optimized Ocr Processing 1 related to 基准测试结果

  • 内存:81.65 MB,比2024.11版本少31.27%,比2024.12版本少42.12%。

    Optimized Ocr Processing 2 related to 基准测试结果

    读取多个文档:

    优化版本 (2025.2):20706.6 毫秒,比 (2024.11) 版本快 15.61%。

    Optimized Ocr Processing 3 related to 基准测试结果

  • 内存:1.2 GB,比旧版减少4.76%。
  • Pdfium版本:未通过基准测试

    Optimized Ocr Processing 4 related to 基准测试结果

现实应用:企业如何受益

法律与合规:更快的文档数字化

一家律师事务所在数字化法律合同时,之前在处理多页扫描协议时面临着缓慢的OCR处理问题。 使用IronOCR 2025.2,他们现在可以将合同转换为可搜索的PDF,其速度几乎提高了50%,从而简化了案件研究和合规检查。

医疗保健:高效的医疗记录处理

医院和诊所经常处理大量患者记录的TIFF扫描件。 以前,将一份24页的医疗历史文件转换为可搜索的PDF需要一分钟以上。 现在,通过改进的内存管理和并发处理,该任务只需32秒即可完成,从而更快地访问关键的病人数据。

财务与审计:处理批量报告

会计公司扫描数百页财务报告,需要一种解决方案,以保持文件大小可控,同时确保文本可被搜索。 通过IronOCR的精细渲染,他们现在可以更高效地处理多文档扫描,减少处理时间和最终文件大小。

研究与档案:保存历史文献

档案员在处理扫描的研究论文和历史文件时,需要高度准确的文本识别,同时保持文件存储轻量化。 最新的优化使他们能够以显著较低的处理开销处理大型文档转换。


可搜索PDF的演变:一个过程,而不仅仅是一次飞跃

优化不是一次飞跃,而是一个由现实挑战塑造的循序渐进的过程。

  1. 2024.11引入了可搜索PDF的文件大小缩减功能,但遇到了性能限制。

  2. 2024.12: 渲染改进减少了PDF文件大小,但在处理大型TIFF文件时暴露了速度和内存问题。

  3. 2025.1解决了页面旋转处理中的第一个瓶颈,将处理时间提高了10%

  4. 2025.2:全面优化带来了49%的性能提升,提高了内存效率,并更加流畅地处理大量可搜索的PDF。

    每次更新都建立在以前的经验之上,从而打造出一个更快、更高效并为高需求工作负载做好准备的OCR引擎。


体验IronOCR最新更新的强大功能

如果您的企业依赖于快速、高效且准确的OCR处理,那么此IronOCR 2025.2更新将提供您所需的速度和优化。

试用30天免费试用密钥,体验整个过程! 🚀

Kannaopat Udonpant
坎那帕·乌东攀
软件工程师
在成为软件工程师之前,Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年,他利用自己的 C# 技能加入了 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习,Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时,Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。
< 前一页
使用IronOCR从扫描图像中提取表格数据:实况演示回顾
下一步 >
C#中OCR发票处理(开发者教程)