UTILISATION DE L'IRONOCR

Performance optimisée pour un traitement OCR plus rapide et plus efficace

Kannaopat Udonpant
Kannapat Udonpant
février 19, 2025
Partager:

En 2024.12, IronOCR a introduit une fonctionnalité qui a réduit de manière significative la taille des fichiers des PDF interrogeables générés lors du traitement des images TIFF multipages. Bien que cette amélioration ait permis de produire des fichiers de sortie plus petits, elle a également introduit des défis de performance en termes de vitesse de traitement et d'utilisation de la mémoire.

Les optimisations initiales dans 2025.1 ont commencé à aborder ces problèmes de performance. Les améliorations de performances complètes ont ensuite été livrées dans la version 2025.2, qui a conservé les tailles de fichiers réduites tout en résolvant les défis de vitesse et de mémoire lors du traitement de documents multipages.


Identification du goulot d'étranglement : Rotation de page et temps de traitement

Un des principaux goulets d'étranglement de performance était la rotation des pages. Chaque opération créait une nouvelle instance au lieu de réutiliser celles existantes, ce qui entraînait un temps de traitement et une consommation de mémoire inutiles. Cette inefficacité a entraîné une augmentation du temps de traitement et de la consommation de mémoire, en particulier lors de la conversion de grands TIFF en PDF consultables.

Version d'optimisation (IronOCR 2025.2)

La correction initiale dans IronOCR 2025.1 s'est concentrée sur l'optimisation de la réutilisation des instances pour la rotation des pages. Cela a conduit à une amélioration modeste de 10 %, réduisant le temps de traitement de 63 secondes à 57 secondes. Mais ce n'était que le début.

Alors que nous explorions plus en profondeur, nous avons identifié plusieurs autres domaines à améliorer.


#

Améliorations systématiques des performances

Principaux Domaines d'Amélioration

  • Réutilisation d'instance pour des opérations répétées
  • Optimisation du traitement concurrent
  • Gestion du cycle de vie des objets et de l'allocation mémoire
  • Améliorations du rendu des PDF indexables

    Chacune de ces optimisations reposait sur la précédente, menant aux améliorations révolutionnaires dans IronOcr 2025.2.


Observations Clés : Qu'est-ce qui a changé ?

Avec ces améliorations, la mise à jour IronOCR 2025.2 a apporté des améliorations significatives en termes de performances :

Traitement Plus Rapide :

  • PDFs de 24 pages consultables traitent désormais 49% plus rapidement (63s → 32s).
  • Traitement multi-document amélioré de 45%.
  • La reconnaissance optique de caractères d'une seule image est 35% plus rapide.

    Utilisation de la mémoire plus efficace :

  • Allocations d'objets réduites jusqu'à 63 %.
  • Moins de fragmentation de la mémoire a conduit à des performances plus fluides.


Résultats des benchmarks

ReadSimpleImage :

  • Version 2025.2 : 867,1 ms, 16,27 % plus rapide que la version 2024.11, 34,83 % plus rapide que la version 2025.1.

    Optimized Ocr Processing 1 related to Résultats des benchmarks

  • Mémoire : 81,65 Mo, 31,27 % de moins que la version 2024.11, 42,12 % de moins que la version 2024.12.

    Optimized Ocr Processing 2 related to Résultats des benchmarks

    LirePlusieursDocs :

    Version optimisée (2025.2) : 20706,6 ms, 15,61 % plus rapide que la version (2024.11).

    Optimized Ocr Processing 3 related to Résultats des benchmarks

  • Mémoire : 1,2 Go, 4,76 % de moins que Legacy.
  • Version Pdfium : a échoué au test de performance

    Optimized Ocr Processing 4 related to Résultats des benchmarks

Applications réelles : Comment les entreprises en bénéficient

Légal et Conformité : Numérisation des Documents Plus Rapide

Un cabinet d'avocats numérisant des contrats juridiques était auparavant confronté à un traitement OCR lent lors de la gestion d'accords numérisés de plusieurs pages. Avec IronOCR 2025.2, ils peuvent désormais convertir des contrats en PDF consultables presque 50 % plus rapidement, rationalisant ainsi la recherche de cas et les vérifications de conformité.

Santé : Traitement efficace des dossiers médicaux

Les hôpitaux et les cliniques traitent souvent de grandes numérisations TIFF de dossiers de patients. Avant, la conversion d'un document de 24 pages d'antécédents médicaux en un PDF indexable prenait plus d'une minute. Maintenant, avec une gestion de la mémoire améliorée et un traitement simultané, cette tâche est effectuée en seulement 32 secondes, permettant un accès plus rapide aux données critiques des patients.

Finance et Audit : Gestion des Rapports en Masse

Les cabinets comptables, qui numérisent des centaines de pages de rapports financiers, avaient besoin d'une solution pour maintenir la taille des fichiers gérable tout en garantissant que le texte reste consultable. Avec le rendu raffiné d'IronOCR, ils peuvent désormais traiter les numérisations multi-documents plus efficacement, réduisant à la fois le temps de traitement et la taille des fichiers finaux.

Recherche & Archives : Préservation des documents historiques

Les archivistes travaillant avec des documents de recherche numérisés et des documents historiques nécessitent une reconnaissance de texte très précise tout en gardant les fichiers légers pour le stockage. Les dernières optimisations leur permettent de gérer des conversions de documents à grande échelle avec une charge de traitement significativement réduite.


L'évolution des PDF consultables : un processus, et pas seulement un saut

L'optimisation n'est pas un bond en avant unique, c'est un processus étape par étape façonné par des défis concrets.

  1. 2024.11 : Introduction d'une réduction de la taille des fichiers pour les PDF interrogeables mais confrontation à des limitations de performance.

  2. 2024.12 : Les améliorations de rendu ont réduit la taille des fichiers PDF mais ont révélé des problèmes de vitesse et de mémoire avec les fichiers TIFF volumineux.

  3. 2025.1 : Abordé le premier goulot d'étranglement dans le traitement de la rotation des pages, améliorant le temps de traitement de 10%.

  4. 2025.2 : Des optimisations complètes ont apporté une amélioration des performances de 49 %, une meilleure efficacité de la mémoire et une gestion plus fluide des grands PDF consultables.

    Chaque mise à jour s'appuie sur les leçons de la précédente, aboutissant à un moteur OCR qui est plus rapide, plus efficace et prêt pour des charges de travail exigeantes.


Découvrez la puissance de la dernière mise à jour d'IronOCR

Si votre entreprise dépend d'un traitement OCR rapide, efficace et précis, cette mise à jour IronOCR 2025.2 offre la vitesse et l'optimisation dont vous avez besoin.

Essayez la clé d'essai gratuite pendant 30 jours et découvrez le processus! 🚀

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT
Extraction des données tabulaires à partir d'images scannées en utilisant IronOCR : Récapitulatif de la démonstration en direct
SUIVANT >
Traitement des factures par OCR en C# (Tutoriel pour développeur)