Pourquoi choisir IronOCR plutôt que Tesseract ?
Précision
Tesseract
- Tesseract n'est pas en mesure de traiter une image tournée, de travers, à faible DPI, numérisée ou contenant du bruit de fond
- Nécessite un prétraitement de l'image à l'aide de Photoshop ou d'ImageMagick
- Temps de traitement long avant de fournir des informations absurdes
IronOCR
- Le prétraitement IronOCR et les filtres d'image éliminent ce casse-tête.
- Les utilisateurs atteignent souvent une précision de 99,8 à 100 % avec une configuration minimale
Compatibilité des images
Tesseract
- Accepte uniquement le format d'image Leptonica PIX qui est un objet IntPtr C++ en C#
- Les objets PIX ne sont pas des mémoires gérées - le fait de ne pas les manipuler avec précaution en C# entraîne des fuites de mémoire
IronOCR
- Gestion de la mémoire des images
- Prise en charge des PDF et des images larges :
- TIFF multi-trame
- JPEG & JPEG2000
- GIF
- PNG
- System.Drawing Bitmaps, Stream, et Byte Array/Binary image Data (byte []) sont inclus pour chaque format de fichier
IronSoftware.System.Drawing remplacera bientôt la dépendance à System.Drawing (permet le format Bitmap universel)
Performance
Tesseract
- Les paramètres mal documentés doivent être affinés pour fournir des données précises
- Dépend de documents propres ou d'images prétraitées
IronOCR
- La configuration zéro fonctionne avec précision et rapidité pour la plupart des images
- Le multithreading permet d'exploiter pleinement les processeurs multicœurs
- Même les images à faible résolution fonctionnent généralement avec un haut degré de précision
- Pas besoin de Photoshop
API
Tesseract
Peu ou pas de soutien, pas de convivialité pour les débutants :
Travaillez avec des couches d'interopérabilité -- beaucoup trouvées sur GitHub sont obsolètes avec des tickets non résolus, des fuites de mémoire et des avertissements de console
-- Peut ne pas prendre en charge .NET Core ou Standard
- Travailler avec la ligne de commande EXE -- difficile à déployer et constamment interrompu par les scanners de virus et les politiques de sécurité
IronOCR
- Une bibliothèque .NET gérée et testée pour Tesseract appelée IronTesseract
- Entièrement documenté avec support IntelliSense
- Une équipe d'ingénieurs d'assistance prête à vous aider
Langues
Tesseract
- Seulement 100 langues
IronOCR
- Plus de 127 langues intégrées + prise en charge de packs de langues personnalisés
Conclusion
Tesseract est une excellente ressource pour les développeurs C#, mais ce n'est pas une bibliothèque OCR complète pour .NET. Les images scannées ou photographiées doivent être prétraitées de manière à être orthogonales, normalisées, à haute résolution et exemptes de bruit numérique avant que Tesseract ne puisse les traiter avec précision.
En revanche, IronOCR peut faire tout cela et bien plus encore, avec une seule ligne de code. IronOCR utilise un Tesseract très finement ajusté pour son moteur OCR interne, conçu pour C#, avec de nombreuses améliorations de performances et des fonctionnalités ajoutées en standard.