Lectura de documentos de identidad con IronOCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

Los documentos de identidad son, por diseño, muy difíciles de leer para los motores OCR debido a la protección anti-copia/fraude -- hologramas, imágenes de marca de agua, ruido digital variable, etc.-- añadida a los fondos de la tarjeta.

Esto no quiere decir que sea imposible. Se recomiendan los formatos de imagen con menos ruido digital, como TIFF o PNG, en lugar de los siguientes

Formatos de imagen lossy como JPEG.

Pruebe también lo siguientefiltros de optimización de imágenes:

-DeNoise(); -- Elimina el ruido digital. Este filtro sólo debe utilizarse cuando se espera ruido. Aplana los canales Alfa a blanco.

-DeepCleanBackgroundNoise() -- Eliminación de ruido de fondo intenso. Utilice este filtro sólo en caso de que se conozca el ruido de fondo extremo del documento, ya que este filtro también corre el riesgo de reducir la precisión del OCR de los documentos limpios, y es muy costoso para la CPU.

También puedes probar a recortar rectángulos:

https://ironsoftware.com/csharp/ocr/examples/net-tesseract-content-area-rectangle-crop/