¿Por qué elegir IronOCR en lugar de Tesseract?
Precisión
Tesseract
- Tesseract no puede manejar una imagen girada, torcida, con pocos PPP, escaneada o con ruido de fondo.
- Requiere preprocesamiento de imágenes con Photoshop o ImageMagick
- Largo tiempo de procesamiento antes de proporcionar información sin sentido
IronOCR
- _**_Preprocesamiento IronOCR yfiltros de imagen quítame este dolor de cabeza
- Los usuarios suelen alcanzar una precisión del 99,8-100% con una configuración mínima
Compatibilidad de imágenes
Tesseract
- Sólo acepta el formato de imagen Leptonica PIX, que es un objeto IntPtr C++ en C#.
- Los objetos PIX no son memoria gestionada: si no se manejan con cuidado en C#, se producen fugas de memoria.
IronOCR
- Gestión de la memoria de imágenes
- Compatibilidad con PDF e imágenes amplias:
- TIFF multitrama
- JPEG Y JPEG2000
- GIF
- PNG
System.Drawing Bitmaps, Stream y Byte Array/Datos de imagen binarios(byte[]) se incluyen para cada formato de archivo
-IronSoftware.System.Drawing pronto para sustituir a System.Drawing reliance(permite el formato Bitmap universal)
Rendimiento
Tesseract
- Los ajustes mal documentados deben ajustarse para que sean precisos.
- Depende de documentos limpios/imágenes preprocesadas
IronOCR
- La configuración cero funciona con precisión y velocidad para la mayoría de las imágenes
- El multithreading aprovecha al máximo los procesadores multinúcleo
- Incluso las imágenes de baja resolución suelen funcionar con un alto grado de precisión
- No necesita Photoshop
API
Tesseract
Poco o ningún apoyo, no apto para principiantes:
Trabajar con capas de interoperabilidad: muchas de las que se encuentran en GitHub están desactualizadas, con tickets sin resolver, fugas de memoria y advertencias en la consola.
-- Puede no ser compatible con .NET Core o Standard
- Trabajar con la línea de comandos EXE -- difícil de desplegar y constantemente interrumpido por escáneres de virus y políticas de seguridad.
IronOCR
- Una biblioteca .NET gestionada y probada para Tesseract llamada IronTesseract
- Completamente documentado con soporte IntelliSense
- Equipo de ingenieros de asistencia preparado para ayudarle
Idiomas
Tesseract
- Sólo 100 lenguas
IronOCR
- Más de 127 idiomas incorporados + compatibilidad con paquetes de idiomas personalizados
Conclusión
Tesseract es un excelente recurso para desarrolladores C++, pero no es una biblioteca OCR completa para .NET. Las imágenes escaneadas o fotografiadas deben preprocesarse para que sean ortogonales, normalizadas, de alta resolución y libres de ruido digital antes de que Tesseract pueda trabajar con ellas con precisión.
En cambio, IronOCR puede hacer esto y mucho más, con una sola línea de código. IronOCR utiliza unTesseract para su motor interno de OCR, construido para C#, con muchas mejoras de rendimiento y funciones añadidas de serie.