跳至页脚内容
使用 IRONOCR

优化性能以更快、更高效的 OCR 处理

2024.12中,IronOCR引入了一项功能,该功能可在处理多页 TIFF 图像时显著减少生成的可搜索 PDF 的文件大小。 虽然这一改进实现了更小的输出文件,但也带来了处理速度和内存使用方面的性能挑战。

2025.1 中的初始优化开始解决这些性能问题。 在 2025.2 版本中进行了全面的性能改进,既保持了较小的文件大小,又解决了处理多页文档时的速度和内存问题。


找出瓶颈:页面轮转和处理时间

一个主要的性能瓶颈是页面旋转。 每次操作都会创建一个新实例,而不是重复使用现有实例,从而导致不必要的处理时间和内存消耗。 这种低效导致处理时间和内存消耗增加,特别是在将大型TIFF转换为可搜索的PDF时。

优化版 (IronOCR 2025.2)

IronOCR 2025.1 中的初始修复侧重于优化页面轮换的实例重用。 这使得翻译效率提高了 10%,处理时间从 63 秒缩短到 57 秒。 但这仅仅是个开始。

随着深入研究,我们发现了其他几个需要改进的地方。


系统性能增强

.

主要改进领域

  • 重复操作的实例重用
  • 优化并发处理
  • 内存分配与对象生命周期管理
  • 可搜索的 PDF 渲染改进

每一次优化都是在上一次优化的基础上进行的,从而实现了 IronOcr 2025.2 中的突破性改进。


主要观察结果:有哪些变化?

通过这些增强功能,IronOcr 2025.2 更新带来了显著的性能提升:

更快的处理

  • 24页可搜索PDF文件现在的处理速度提高了49%63秒 → 32秒)。
  • 多文档处理提高了45%
  • 单张图像 OCR 的速度提高了 35%

更高效的内存使用

  • 对象分配减少了多达63%。
  • 更少的内存碎片导致更流畅的性能。

基准结果

ReadSimpleImage:

  • 2025.2 版本:867.1 毫秒,比 2024.11 版本快 16.27%,比 2025.1 版本快 34.83%。

优化的OCR处理 1

  • 内存:81.65 MB,比 2024.11 版本少 31.27%,比 2024.12 版本少 42.12%。

!a href="/static-assets/ocr/blog/optimized-ocr-processing/optimized-ocr-processing-2.webp"> 优化 OCR 处理 2

ReadMultipleDocs:

优化版(2025.2): 20706.6 毫秒,比 (2024.11) 版本快 15.61%。

优化的OCR处理 3

  • 内存:1.2 GB,比旧版少4.76%。
  • Pdfium 版本:未通过基准测试

!a href="/static-assets/ocr/blog/optimized-ocr-processing/optimized-ocr-processing-4.webp"> 优化 OCR 处理 4

现实世界中的应用:企业如何受益

法律与合规性:更快的文档数字化

一家将法律合同数字化的律师事务所以前在处理多页扫描协议时面临 OCR 处理速度缓慢的问题。 有了 IronOcr 2025.2,他们现在可以将合同转换为可搜索 PDF 的速度提高近 50%,从而简化了案例研究和合规性检查。

医疗保健:高效医疗记录处理

医院和诊所经常需要处理大量的 TIFF 病历扫描件。 以前,将一份 24 页的病历文件转换成可搜索的 PDF 需要一分钟以上的时间。 现在,通过改进内存管理和并发处理,这项任务只需 32 秒即可完成,从而可以更快地访问重要的患者数据。

财务与审计:处理批量报告

扫描数百页财务报告的会计师事务所需要一种解决方案,既能控制文件大小,又能确保文本的可搜索性。 有了 IronOCR 的精细渲染,他们现在可以更高效地处理多文档扫描,既减少了处理时间,又缩小了最终文件大小。

研究与档案:保存历史文档

处理扫描研究论文和历史文件的档案管理员需要高度准确的文本识别,同时保持文件的轻量级存储。 最新的优化使它们能够处理大规模文档转换,并显著降低处理开销。


可搜索PDF的演变:一个过程,而不仅仅是一次跳跃

优化不是一蹴而就的,而是一个根据现实世界的挑战逐步形成的过程。

1.2024.11为可搜索 PDF 引入了文件大小缩减功能,但遇到了性能限制。
2.2024.12渲染改进减少了 PDF 文件大小,但也暴露出大型 TIFF 的速度和内存问题。
3.2025.1解决了页面旋转处理中的第一个瓶颈,将处理时间缩短了10%
4.2025.2:全面优化使性能提升了49%,提高了内存效率,并能更流畅地处理大型可搜索 PDF。

每次更新都是在上次更新的基础上进行的,从而使 OCR 引擎更快、更高效,并可满足高要求的工作负载


体验 IronOcr 最新更新的强大功能

如果您的业务依赖于快速、高效和准确的OCR处理,那么这个IronOCR 2025.2更新提供您所需的速度和优化。

试用30天免费试用密钥并体验这个过程!

常见问题解答

在OCR处理中使用实例重用有哪些好处?

在IronOCR 2025.2中实现的OCR处理中的实例重用,减少了为每个操作创建新实例的开销,从而提高了处理速度和降低了内存消耗。

并发处理如何提高OCR性能?

IronOCR 2025.2中的并发处理允许同时处理多个OCR任务,显著提高了文档处理的整体速度和效率。

在最新的OCR更新中,对PDF渲染进行了哪些优化?

IronOCR 2025.2中的最新更新包括改进的PDF渲染,提高了将图像转换为可搜索PDF文档的质量和速度。

在最新版本的OCR软件中内存使用如何得到改进?

通过优化内存分配和减少碎片化,IronOCR 2025.2中的内存使用得到改进,从而将整体内存消耗降低了多达63%。

改善OCR软件处理速度中解决了哪些问题?

IronOCR 2025.2解决了以往的性能瓶颈,比如低效的页面旋转过程,导致显著更快的处理时间。

律师事务所如何从最新的OCR软件更新中受益?

律师事务所可以从IronOCR 2025.2中受益,通过将法律文件转换为可搜索的PDF减少近50%的时间,帮助高效研究和合规管理。

OCR更新在处理多页TIFF文件上提供了哪些优势?

IronOCR 2025.2的更新提供了对大型多页TIFF的高效处理,速度提高多达49%,并改进了内存管理,使其适用于大批量文档处理。

医疗行业从更快的OCR处理中如何受益?

医疗行业从IronOCR 2025.2中受益,通过更快地处理患者记录和大型TIFF扫描,让对关键医疗信息的访问变得更加快速。

在处理多个文档上有哪些改进?

IronOCR 2025.2改进了ReadMultipleDocs功能,使处理时间更快,处理批量文档转换时更有效地使用内存。

OCR更新如何帮助存档和研究?

档案管理员和研究人员可以从IronOCR 2025.2中受益,将大量文档转换时减少处理开销,同时保留文档完整性,确保高效存储。

Kannaopat Udonpant
软件工程师
在成为软件工程师之前,Kannapat 在日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了车辆机器人实验室的成员,隶属于生物生产工程系。2022 年,他利用自己的 C# 技能加入 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他可以直接从编写大多数 IronPDF 代码的开发者那里学习。除了同行学习外,Kannapat 还喜欢在 Iron Software 工作的社交方面。不撰写代码或文档时,Kannapat 通常可以在他的 PS5 上玩游戏或重温《最后生还者》。