UTILISATION DE L'IRONOCR

Performance optimisée pour un traitement OCR plus rapide et plus efficace

Publié février 19, 2025
Partager:

En 2024.12,IronOCRa introduit une fonctionnalité qui a considérablement réduit la taille des fichiers des PDF consultables générés lors du traitementimages TIFF multi-pages. Bien que cette amélioration ait permis de produire des fichiers de sortie plus petits, elle a également introduit des défis de performance en termes de vitesse de traitement et d'utilisation de la mémoire.

Optimisations initiales dans2025.1a commencé à résoudre ces problèmes de performance. Les améliorations de performances complètes ont ensuite été livrées dans la version 2025.2, qui a conservé les tailles de fichiers réduites tout en résolvant les défis de vitesse et de mémoire lors du traitement de documents multipages.


Identifier le goulet d'étranglement : Temps de rotation et de traitement des pages

Un des principaux goulets d'étranglement de performance était la rotation des pages. Chaque opération créait une nouvelle instance au lieu de réutiliser celles existantes, entraînant un temps de traitement et une consommation de mémoire inutiles. Cette inefficacité a conduit à une augmentation du temps de traitement et de la consommation de mémoire, notamment lors de la conversion de grands TIFF.pDF consultables.

Version d'optimisation (IronOCR 2025.2)

La correction initiale dans IronOCR 2025.1 s'est concentrée sur l'optimisation de la réutilisation des instances pour la rotation des pages. Cela a conduit à une amélioration modeste de 10 %, réduisant le temps de traitement de 63 secondes à 57 secondes. Mais ce n'était que le début.

Alors que nous explorions plus en profondeur, nous avons identifié plusieurs autres domaines à améliorer.


Améliorations des performances systématiques

Principaux domaines d'amélioration

  • Réutilisation d'instance pour des opérations répétées
  • Optimisation du traitement concurrent
  • Gestion du cycle de vie des objets et de l'allocation mémoire
  • Améliorations du rendu des PDF indexables

    Chacune de ces optimisations s'est appuyée sur la précédente, menant aux améliorations révolutionnaires dans IronOcr 2025.2.


Observations Clés : Qu'est-ce qui a changé ?

Avec ces améliorations, la mise à jour IronOCR 2025.2 a apporté des améliorations significatives en termes de performances :

Traitement plus rapide :

  • Les PDFs de 24 pages consultables sont désormais traités 49 % plus rapidement(63s → 32s).
  • Le traitement multi-document a été amélioré de 45 %.
  • La reconnaissance optique de caractères d'image unique est 35% plus rapide.

    Utilisation de la mémoire plus efficace :

  • Allocations d'objets réduites jusqu'à 63 %.
  • Moins de fragmentation de la mémoire a conduit à des performances plus fluides.


Résultats du benchmark

LireImageSimple

  • Version 2025.2 : 867,1 ms, 16,27 % plus rapide que la version 2024.11, 34,83 % plus rapide que la version 2025.1.

    Optimized Ocr Processing 1 related to Résultats du benchmark

  • Mémoire : 81,65 Mo, 31,27 % de moins que la version 2024.11, 42,12 % de moins que la version 2024.12.

    Optimized Ocr Processing 2 related to Résultats du benchmark

    ReadMultipleDocs:

    Version optimisée(2025.2): 20706.6 ms, 15.61% faster than (2024.11) version.

    Optimized Ocr Processing 3 related to Résultats du benchmark

  • Mémoire : 1,2 Go, 4,76 % de moins que Legacy.
  • Version Pdfium : a échoué au test de performance

    Optimized Ocr Processing 4 related to Résultats du benchmark

Applications réelles : comment les entreprises en bénéficient

Juridique & Conformité : Numérisation de Documents Plus Rapide

Un cabinet d'avocats numérisant des contrats juridiques était auparavant confronté à un traitement OCR lent lors de la gestion d'accords numérisés de plusieurs pages. Avec IronOCR 2025.2, ils peuvent désormais convertir des contrats en PDF consultables presque 50 % plus rapidement, rationalisant ainsi la recherche de cas et les vérifications de conformité.

Soins de santé : Traitement efficace des dossiers médicaux

Les hôpitaux et les cliniques traitent souvent de grandes numérisations TIFF de dossiers de patients. Avant, la conversion d'un document de 24 pages d'antécédents médicaux en un PDF indexable prenait plus d'une minute. Maintenant, avec une gestion de la mémoire améliorée et un traitement simultané, cette tâche est effectuée en seulement 32 secondes, permettant un accès plus rapide aux données critiques des patients.

Finance & Audit : Gestion des rapports en masse

Les cabinets comptables, qui numérisent des centaines de pages de rapports financiers, avaient besoin d'une solution pour maintenir la taille des fichiers gérable tout en garantissant que le texte reste consultable. Avec le rendu raffiné d'IronOCR, ils peuvent désormais traiter les numérisations multi-documents plus efficacement, réduisant à la fois le temps de traitement et la taille des fichiers finaux.

Recherche et archives : préservation des documents historiques

Les archivistes travaillant avec des documents de recherche numérisés et des documents historiques nécessitent une reconnaissance de texte très précise tout en gardant les fichiers légers pour le stockage. Les dernières optimisations leur permettent de gérer des conversions de documents à grande échelle avec une charge de traitement significativement réduite.


L'évolution des PDF consultables : un processus, pas seulement un saut

L'optimisation n'est pas un bond en avant unique, c'est un processus étape par étape façonné par des défis concrets.

  1. 2024.11: Introduction de la réduction de la taille des fichiers pour les PDF consultables, mais confrontée à des limitations de performance.

  2. 2024.12Les améliorations du rendu ont réduit la taille des fichiers PDF mais ont révélé des problèmes de vitesse et de mémoire avec les grands TIFF.

  3. 2025.1: A abordé le premier goulot d'étranglement dans le traitement de la rotation des pages, améliorant le temps de traitement de 10%.

  4. 2025.2 : Des optimisations complètes ont permis un gain de performance de 49 %, une meilleure efficacité de la mémoire, et une gestion plus fluide des PDF volumineux et consultables.

    Chaque mise à jour s'appuie sur les leçons de la précédente, aboutissant à un moteur OCR plus rapide, plus efficace et prêt pour les charges de travail exigeantes.


Découvrez la puissance de la dernière mise à jour d'IronOCR

Si votre entreprise dépend d'un traitement OCR rapide, efficace et précis, cette mise à jour IronOCR 2025.2 offre la vitesse et l'optimisation dont vous avez besoin.

Essayer la clé d'essai gratuite pendant 30 jourset découvrez le processus! 🚀

Kannaopat Udonpant

Kannapat Udonpant

Ingénieur logiciel

 LinkedIn

Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
SUIVANT >
Traitement des factures par OCR en C# (Tutoriel pour développeur)