¿Por qué IronOCR y no Tesseract?

This article was translated from English: Does it need improvement?
Translated
View the article in English

Precisión

Tesseract

  • Tesseract no puede manejar una imagen girada, torcida, con pocos PPP, escaneada o con ruido de fondo.

  • Requiere preprocesamiento de imágenes con Photoshop o ImageMagick

  • Largo tiempo de procesamiento antes de proporcionar información sin sentido

IronOCR

  • _**_Preprocesamiento IronOCR y filtros de imagen quítame este dolor de cabeza

  • Los usuarios suelen alcanzar una precisión del 99,8-100% con una configuración mínima

Compatibilidad de imágenes

Tesseract

  • Sólo acepta el formato de imagen Leptonica PIX, que es un objeto IntPtr C++ en C#.

  • Los objetos PIX no son memoria gestionada: si no se manejan con cuidado en C#, se producen fugas de memoria.

IronOCR

  • Gestión de la memoria de imágenes

  • Compatibilidad con PDF e imágenes amplias:

  • TIFF multitrama

  • JPEG Y JPEG2000

  • GIF

  • PNG

  • System.Drawing Bitmaps, Stream y Byte Array/Datos de imagen binarios (byte []) se incluyen para cada formato de archivo

  • IronSoftware.System.Drawing pronto para sustituir a System.Drawing reliance (permite el formato Bitmap universal)

    Rendimiento

Tesseract

  • Los ajustes mal documentados deben ajustarse para que sean precisos.

  • Depende de documentos limpios/imágenes preprocesadas

IronOCR

  • La configuración cero funciona con precisión y velocidad para la mayoría de las imágenes

  • El multithreading aprovecha al máximo los procesadores multinúcleo

  • Incluso las imágenes de baja resolución suelen funcionar con un alto grado de precisión

  • No necesita Photoshop

API

Tesseract

Poco o ningún apoyo, no apto para principiantes:

  1. Trabajar con capas de interoperabilidad: muchas de las que se encuentran en GitHub están desactualizadas, con tickets sin resolver, fugas de memoria y advertencias en la consola.

    -- Puede no ser compatible con .NET Core o Standard

  2. Trabajar con la línea de comandos EXE -- difícil de desplegar y constantemente interrumpido por escáneres de virus y políticas de seguridad.

IronOCR

  • Una biblioteca .NET gestionada y probada para Tesseract llamada IronTesseract

  • Completamente documentado con soporte IntelliSense

  • Equipo de ingenieros de asistencia preparado para ayudarle

Idiomas

Tesseract

  • Sólo 100 lenguas

IronOCR

  • Más de 127 idiomas incorporados + compatibilidad con paquetes de idiomas personalizados

Conclusión

Tesseract es un excelente recurso para desarrolladores C++, pero no es una biblioteca OCR completa para .NET. Las imágenes escaneadas o fotografiadas deben preprocesarse para que sean ortogonales, normalizadas, de alta resolución y libres de ruido digital antes de que Tesseract pueda trabajar con ellas con precisión.

En cambio, IronOCR puede hacer esto y mucho más, con una sola línea de código. IronOCR utiliza un Tesseract para su motor interno de OCR, construido para C#, con muchas mejoras de rendimiento y funciones añadidas de serie.