USO DE IRONOCR

Rendimiento optimizado para un procesamiento OCR más rápido y eficiente

Publicado en 19 de febrero, 2025
Compartir:

En 2024.12,IronOCRintrodujo una característica que redujo significativamente el tamaño de archivo de los PDFs buscables generados al procesarimágenes TIFF de múltiples páginas. Si bien esta mejora logró archivos de salida más pequeños, también introdujo desafíos de rendimiento en la velocidad de procesamiento y el uso de memoria.

Optimizaciones iniciales en2025.1comenzó a abordar estos problemas de rendimiento. Las mejoras integrales de rendimiento se entregaron más tarde en la versión 2025.2, que mantuvo los tamaños de archivo más pequeños mientras resolvía los desafíos de velocidad y memoria al manejar documentos de varias páginas.


Identificación del cuello de botella: rotación de página y tiempo de procesamiento

Un importante cuello de botella de rendimiento era la rotación de páginas. Cada operación creaba una nueva instancia en lugar de reutilizar las existentes, lo que llevaba a un tiempo de procesamiento y consumo de memoria innecesarios. Esta ineficiencia resultaba en un aumento del tiempo de procesamiento y consumo de memoria, especialmente al convertir TIFFs grandes enPDF con función de búsqueda.

Versión de optimización (IronOCR 2025.2)

La corrección inicial en IronOCR 2025.1 se centró en optimizar la reutilización de instancias para la rotación de páginas. Esto llevó a una modesta mejora del 10%, reduciendo el tiempo de procesamiento de 63 segundos a 57 segundos. Pero esto era solo el comienzo.

A medida que profundizamos, identificamos varias otras áreas para mejorar.


Mejoras Sistemáticas de Rendimiento

Áreas Clave de Mejora

  • Reutilización de Instancia para Operaciones Repetidas
  • Optimizando el Procesamiento Concurrente
  • Asignación de Memoria y Gestión del Ciclo de Vida de los Objetos
  • Mejoras en el Renderizado de PDF con Búsqueda

    Cada una de estas optimizaciones se basó en la anterior, lo que condujo a las mejoras innovadoras en IronOcr 2025.2.


Observaciones clave: ¿Qué cambió?

Con estas mejoras, la actualización IronOCR 2025.2 entregó mejoras significativas de rendimiento:

Procesamiento más rápido:

  • Los PDFs de 24 páginas con capacidad de búsqueda ahora se procesan un 49% más rápido(63s → 32s).
  • El procesamiento de múltiples documentos mejoró en un 45%.
  • El OCR de imagen única es un 35% más rápido.

    Uso más eficiente de memoria:

  • Asignaciones de objetos reducidas hasta en un 63%.
  • Menos fragmentación de memoria llevó a un rendimiento más fluido.


Resultados de referencia

ReadSimpleImage:

  • Versión 2025.2: 867.1 ms, 16.27% más rápido que la versión 2024.11, 34.83% más rápido que la versión 2025.1.

    Optimized Ocr Processing 1 related to Resultados de referencia

  • Memoria: 81.65 MB, 31.27% menos que la versión 2024.11, 42.12% menos que la versión 2024.12.

    Optimized Ocr Processing 2 related to Resultados de referencia

    ReadMultipleDocs:

    Versión optimizada(2025.2): 20706.6 ms, 15.61% faster than (2024.11) versión.

    Optimized Ocr Processing 3 related to Resultados de referencia

  • Memoria: 1,2 GB, 4,76% menos que Legacy.
  • Versión de Pdfium: Falló la evaluación comparativa

    Optimized Ocr Processing 4 related to Resultados de referencia

Aplicaciones del mundo real: Cómo se benefician las empresas

Legalidad y Cumplimiento: Digitalización Más Rápida de Documentos

Un bufete de abogados que digitalizaba contratos legales anteriormente enfrentaba un procesamiento OCR lento al manejar acuerdos escaneados de varias páginas. Con IronOCR 2025.2, ahora pueden convertir contratos en PDFs con capacidad de búsqueda casi un 50% más rápido, agilizando la investigación de casos y los controles de cumplimiento.

Atención médica: Procesamiento eficiente de historiales médicos

Los hospitales y clínicas a menudo manejan grandes escaneos TIFF de registros de pacientes. Antes, convertir un documento de historia médica de 24 páginas en un PDF con capacidad de búsqueda tomaba más de un minuto. Ahora, con una mejor gestión de memoria y procesamiento concurrente, esta tarea se completa en solo 32 segundos, lo que permite un acceso más rápido a los datos críticos de los pacientes.

Finanzas y Auditoría: Gestión de Informes Masivos

Las firmas contables que escanean cientos de páginas de informes financieros necesitaban una solución para mantener el tamaño de los archivos manejable mientras se aseguraban de que el texto siguiera siendo buscable. Con la renderización refinada de IronOCR, ahora pueden procesar escaneos de múltiples documentos de manera más eficiente, reduciendo tanto el tiempo de procesamiento como el tamaño final de los archivos.

Investigación y archivos: Preservando documentos históricos

Los archivistas que trabajan con investigaciones escaneadas y documentos históricos necesitan un reconocimiento de texto altamente preciso mientras mantienen los archivos ligeros para el almacenamiento. Las últimas optimizaciones les permiten manejar conversiones de documentos a gran escala con una carga de procesamiento significativamente menor.


La evolución de los PDF buscables: un proceso, no solo un salto

La optimización no es un salto hacia adelante, es un proceso paso a paso moldeado por desafíos del mundo real.

1.2024.11Se introdujo la reducción del tamaño de archivo para los PDF con capacidad de búsqueda, pero se encontraron limitaciones de rendimiento.

2.2024.12Las mejoras en el renderizado redujeron los tamaños de archivo PDF, pero revelaron problemas de velocidad y memoria con TIFFs grandes.

3.2025.1Abordó el primer cuello de botella en el procesamiento de rotación de páginas, mejorando el tiempo de procesamiento en un 10%.

  1. 2025.2: Las optimizaciones integrales ofrecieron un 49% de mejora en el rendimiento, mejorando la eficiencia de la memoria y un manejo más fluido de PDFs grandes con capacidad de búsqueda.

    Cada actualización se basa en las lecciones de la anterior, resultando en un motor de OCR que es más rápido, más eficiente y listo para cargas de trabajo de alta demanda.


Experimenta el poder de la última actualización de IronOCR

Si su negocio depende del procesamiento OCR rápido, eficiente y preciso, esta actualización IronOCR 2025.2 ofrece la velocidad y optimización que necesita.

Pruebe la llave de prueba gratuita por 30 díasy experimenta el proceso! 🚀

Kannaopat Udonpant

Kannapat Udonpant

Ingeniero de software

 LinkedIn

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.
SIGUIENTE >
Procesamiento de facturas con OCR en C# (Tutorial para desarrolladores)