¿Por qué elegir IronOCR en lugar de Tesseract?

31 de octubre, 2022
Actualizado 20 de octubre, 2024
Compartir:
This article was translated from English: Does it need improvement?
Translated
View the article in English

Precisión

Tesseract

  • Tesseract no puede manejar una imagen girada, torcida, con pocos PPP, escaneada o con ruido de fondo.
  • Requiere preprocesamiento de imágenes con Photoshop o ImageMagick
  • Largo tiempo de procesamiento antes de proporcionar información sin sentido

IronOCR

  • La preprocesamiento de IronOCR y los filtros de imagen eliminan este dolor de cabeza
  • Los usuarios suelen alcanzar una precisión del 99,8-100% con una configuración mínima

Compatibilidad de imágenes

Tesseract

  • Sólo acepta el formato de imagen Leptonica PIX, que es un objeto IntPtr de C++ en C#
  • Los objetos PIX no son memoria gestionada: si no se manejan con cuidado en C#, se producen fugas de memoria.

IronOCR

  • Gestión de la memoria de imágenes
  • Compatibilidad con PDF e imágenes amplias:
  • TIFF multitrama
  • JPEG Y JPEG2000
  • GIF
  • PNG
  • System.Drawing Bitmaps, Stream, y Byte Array/Binary image Data (byte []) se incluyen para cada formato de archivo
  • IronSoftware.System.Drawing pronto reemplazará la dependencia de System.Drawing (permite el formato Bitmap universal)

    Rendimiento

Tesseract

  • Los ajustes mal documentados deben ajustarse para que sean precisos.
  • Depende de documentos limpios/imágenes preprocesadas

IronOCR

  • La configuración cero funciona con precisión y velocidad para la mayoría de las imágenes
  • El multithreading aprovecha al máximo los procesadores multinúcleo
  • Incluso las imágenes de baja resolución suelen funcionar con un alto grado de precisión
  • No necesita Photoshop

API

Tesseract

Poco o ningún apoyo, no apto para principiantes:

  1. Trabaja con capas de Interop: muchas de las encontradas en GitHub están desactualizadas con tickets sin resolver, fugas de memoria y advertencias en la consola

    -- Puede no ser compatible con .NET Core o Standard

  2. Trabajar con la línea de comandos EXE -- difícil de desplegar y constantemente interrumpido por escáneres de virus y políticas de seguridad.

IronOCR

  • Una biblioteca .NET gestionada y probada para Tesseract llamada IronTesseract
  • Completamente documentado con soporte IntelliSense
  • Equipo de ingenieros de asistencia preparado para ayudarle

Idiomas

Tesseract

  • Sólo 100 lenguas

IronOCR

  • Más de 127 idiomas incorporados + compatibilidad con paquetes de idiomas personalizados

Conclusión

Tesseract es un excelente recurso para desarrolladores C++, pero no es una biblioteca OCR completa para .NET. Las imágenes escaneadas o fotografiadas deben preprocesarse para que sean ortogonales, normalizadas, de alta resolución y libres de ruido digital antes de que Tesseract pueda trabajar con ellas con precisión.

En cambio, IronOCR puede hacer esto y mucho más, con una sola línea de código. IronOCR utiliza un Tesseract muy afinado para su motor OCR interno, construido para C#, con muchas mejoras de rendimiento y características añadidas como estándar.