Lire des documents d'identité avec IronOCR
Les documents d'identification sont, par conception, très difficiles à lire pour les moteurs OCR en raison des protections anti-copie/fraude - hologrammes, images en filigrane, bruit numérique variable, etc.
Cela ne veut pas dire que c'est impossible. Les résultats dépendront probablement de la qualité de l'image. Les formats d'image avec moins de bruit numérique, tels que TIFF ou PNG, sont recommandés
les formats d'image lossy tels que JPEG.
Veuillez également essayer ce qui suitfiltres d'optimisation d'image:
- DeNoise(); -- Supprime le bruit numérique. Ce filtre ne doit être utilisé que lorsque l'on s'attend à ce qu'il y ait du bruit. Aplatit les canaux Alpha en blanc.
DeepCleanBackgroundNoise() -- Suppression des bruits de fond importants. Ce filtre n'est utilisé que si l'on sait que le bruit de fond du document est extrême, car il risque également de réduire la précision de l'OCR des documents propres, et il est très coûteux pour l'unité centrale.
Vous pouvez également essayer de recadrer les rectangles :
https://ironsoftware.com/csharp/ocr/examples/net-tesseract-content-area-rectangle-crop/