¿Por qué elegir IronOCR en lugar de Tesseract?
Precisión
Tesseract
- Tesseract no puede manejar una imagen girada, torcida, con pocos PPP, escaneada o con ruido de fondo.
- Requiere preprocesamiento de imágenes con Photoshop o ImageMagick
- Largo tiempo de procesamiento antes de proporcionar información sin sentido
IronOCR
- La preprocesamiento de IronOCR y los filtros de imagen eliminan este dolor de cabeza
- Los usuarios suelen alcanzar una precisión del 99,8-100% con una configuración mínima
Compatibilidad de imágenes
Tesseract
- Sólo acepta el formato de imagen Leptonica PIX, que es un objeto IntPtr de C++ en C#
- Los objetos PIX no son memoria gestionada: si no se manejan con cuidado en C#, se producen fugas de memoria.
IronOCR
- Gestión de la memoria de imágenes
- Compatibilidad con PDF e imágenes amplias:
- TIFF multitrama
- JPEG Y JPEG2000
- GIF
- PNG
- System.Drawing Bitmaps, Stream, y Byte Array/Binary image Data (byte []) se incluyen para cada formato de archivo
IronSoftware.System.Drawing pronto reemplazará la dependencia de System.Drawing (permite el formato Bitmap universal)
Rendimiento
Tesseract
- Los ajustes mal documentados deben ajustarse para que sean precisos.
- Depende de documentos limpios/imágenes preprocesadas
IronOCR
- La configuración cero funciona con precisión y velocidad para la mayoría de las imágenes
- El multithreading aprovecha al máximo los procesadores multinúcleo
- Incluso las imágenes de baja resolución suelen funcionar con un alto grado de precisión
- No necesita Photoshop
API
Tesseract
Poco o ningún apoyo, no apto para principiantes:
Trabaja con capas de Interop: muchas de las encontradas en GitHub están desactualizadas con tickets sin resolver, fugas de memoria y advertencias en la consola
-- Puede no ser compatible con .NET Core o Standard
- Trabajar con la línea de comandos EXE -- difícil de desplegar y constantemente interrumpido por escáneres de virus y políticas de seguridad.
IronOCR
- Una biblioteca .NET gestionada y probada para Tesseract llamada IronTesseract
- Completamente documentado con soporte IntelliSense
- Equipo de ingenieros de asistencia preparado para ayudarle
Idiomas
Tesseract
- Sólo 100 lenguas
IronOCR
- Más de 127 idiomas incorporados + compatibilidad con paquetes de idiomas personalizados
Conclusión
Tesseract es un excelente recurso para desarrolladores C++, pero no es una biblioteca OCR completa para .NET. Las imágenes escaneadas o fotografiadas deben preprocesarse para que sean ortogonales, normalizadas, de alta resolución y libres de ruido digital antes de que Tesseract pueda trabajar con ellas con precisión.
En cambio, IronOCR puede hacer esto y mucho más, con una sola línea de código. IronOCR utiliza un Tesseract muy afinado para su motor OCR interno, construido para C#, con muchas mejoras de rendimiento y características añadidas como estándar.