¿Por qué IronOCR y no Tesseract?

Precisión

Tesseract

  • Tesseract no puede manejar una imagen girada, torcida, con pocos PPP, escaneada o con ruido de fondo.
  • Requiere preprocesamiento de imágenes con Photoshop o ImageMagick
  • Largo tiempo de procesamiento antes de proporcionar información sin sentido

IronOCR

  • _**_Preprocesamiento IronOCR y filtros de imagen quítame este dolor de cabeza
  • Los usuarios suelen alcanzar una precisión del 99,8-100% con una configuración mínima

Compatibilidad de imágenes

Tesseract

  • Sólo acepta el formato de imagen Leptonica PIX, que es un objeto IntPtr C++ en C#.
  • Los objetos PIX no son memoria gestionada: si no se manejan con cuidado en C#, se producen fugas de memoria.

IronOCR

  • Gestión de la memoria de imágenes
  • Compatibilidad con PDF e imágenes amplias:
  • TIFF multitrama
  • JPEG Y JPEG2000
  • GIF
  • PNG
  • System.Drawing Bitmaps, Stream y Byte Array/Datos de imagen binarios (byte []) se incluyen para cada formato de archivo
  • IronSoftware.System.Drawing pronto para sustituir a System.Drawing reliance (permite el formato Bitmap universal)

    Rendimiento

Tesseract

  • Los ajustes mal documentados deben ajustarse para que sean precisos.
  • Depende de documentos limpios/imágenes preprocesadas

IronOCR

  • La configuración cero funciona con precisión y velocidad para la mayoría de las imágenes
  • El multithreading aprovecha al máximo los procesadores multinúcleo
  • Incluso las imágenes de baja resolución suelen funcionar con un alto grado de precisión
  • No necesita Photoshop

API

Tesseract

Poco o ningún apoyo, no apto para principiantes:

  1. Trabajar con capas de interoperabilidad: muchas de las que se encuentran en GitHub están desactualizadas, con tickets sin resolver, fugas de memoria y advertencias en la consola.

    -- Puede no ser compatible con .NET Core o Standard

  2. Trabajar con la línea de comandos EXE -- difícil de desplegar y constantemente interrumpido por escáneres de virus y políticas de seguridad.

IronOCR

  • Una biblioteca .NET gestionada y probada para Tesseract llamada IronTesseract
  • Completamente documentado con soporte IntelliSense
  • Equipo de ingenieros de asistencia preparado para ayudarle

Idiomas

Tesseract

  • Sólo 100 lenguas

IronOCR

  • Más de 127 idiomas incorporados + compatibilidad con paquetes de idiomas personalizados

Conclusión

Tesseract es un excelente recurso para desarrolladores C++, pero no es una biblioteca OCR completa para .NET. Las imágenes escaneadas o fotografiadas deben preprocesarse para que sean ortogonales, normalizadas, de alta resolución y libres de ruido digital antes de que Tesseract pueda trabajar con ellas con precisión.

En cambio, IronOCR puede hacer esto y mucho más, con una sola línea de código. IronOCR utiliza un Tesseract para su motor interno de OCR, construido para C#, con muchas mejoras de rendimiento y funciones añadidas de serie.