Pourquoi choisir IronOCR plutôt que Tesseract ?
Précision
Tesseract
- Tesseract n'est pas en mesure de traiter une image tournée, de travers, à faible DPI, numérisée ou contenant du bruit de fond
- Nécessite un prétraitement de l'image à l'aide de Photoshop ou d'ImageMagick
- Temps de traitement long avant de fournir des informations absurdes
IronOCR
- le pré-traitement de l'IronOCR et l'évaluation de la qualité de l'airfiltres d'image faire disparaître ce mal de tête
- Les utilisateurs atteignent souvent une précision de 99,8 à 100 % avec une configuration minimale
Compatibilité des images
Tesseract
- c# accepte uniquement le format d'image Leptonica PIX qui est un objet IntPtr C++
- Les objets PIX ne sont pas des mémoires gérées - le fait de ne pas les manipuler avec précaution en C# entraîne des fuites de mémoire
IronOCR
- Gestion de la mémoire des images
- Prise en charge des PDF et des images larges :
- TIFF multi-trame
- JPEG & JPEG2000
- GIF
- PNG
- System.Drawing Bitmaps, flux et tableaux d'octets/données d'images binaires(octet[]) sont inclus pour chaque format de fichier
IronSoftware.System.Drawing bientôt pour remplacer System.Drawing reliance(permet l'utilisation du format Bitmap universel)
Performance
Tesseract
- Les paramètres mal documentés doivent être affinés pour fournir des données précises
- Dépend de documents propres ou d'images prétraitées
IronOCR
- La configuration zéro fonctionne avec précision et rapidité pour la plupart des images
- Le multithreading permet d'exploiter pleinement les processeurs multicœurs
- Même les images à faible résolution fonctionnent généralement avec un haut degré de précision
- Pas besoin de Photoshop
API
Tesseract
Peu ou pas de soutien, pas de convivialité pour les débutants :
Travailler avec les couches Interop - beaucoup de couches trouvées sur GitHub sont obsolètes avec des tickets non résolus, des fuites de mémoire, et des avertissements de la console
-- Peut ne pas prendre en charge .NET Core ou Standard
- Travailler avec la ligne de commande EXE -- difficile à déployer et constamment interrompu par les scanners de virus et les politiques de sécurité
IronOCR
- Une bibliothèque .NET gérée et testée pour Tesseract appelée IronTesseract
- Entièrement documenté avec support IntelliSense
- Une équipe d'ingénieurs d'assistance prête à vous aider
Langues
Tesseract
- Seulement 100 langues
IronOCR
- Plus de 127 langues intégrées + prise en charge de packs de langues personnalisés
Conclusion
Tesseract est une excellente ressource pour les développeurs C#, mais ce n'est pas une bibliothèque OCR complète pour .NET. Les images scannées ou photographiées doivent être prétraitées de manière à être orthogonales, normalisées, à haute résolution et exemptes de bruit numérique avant que Tesseract ne puisse les traiter avec précision.
En revanche, IronOCR peut faire tout cela et bien plus encore, avec une seule ligne de code. IronOCR utilise un système très finement réglé deTesseract pour son moteur OCR interne, construit en C#, avec de nombreuses améliorations des performances et des fonctionnalités ajoutées en standard.