Lesen von Identitätsdokumenten mit IronOCR
Identifizierungsdokumente sind aufgrund des Kopier- und Fälschungsschutzes (Hologramme, Wasserzeichen, variables digitales Rauschen usw.), der dem Kartenhintergrund hinzugefügt wurde, für OCR-Systeme sehr schwer zu lesen.
Das soll nicht heißen, dass es unmöglich ist. Bildformate mit weniger digitalem Rauschen, wie z. B. TIFF oder PNG, sind empfehlenswerter als
verlustbehaftete Bildformate wie JPEG.
Bitte versuchen Sie auch Folgendesbildoptimierungsfilter:
- DeNoise(); -- Entfernt digitales Rauschen. Dieser Filter sollte nur verwendet werden, wenn Rauschen zu erwarten ist. Verflacht Alphakanäle zu Weiß.
DeepCleanBackgroundNoise() -- Entfernung starker Hintergrundgeräusche. Verwenden Sie diesen Filter nur, wenn ein extremes Hintergrundrauschen des Dokuments bekannt ist, da dieser Filter auch die OCR-Genauigkeit von sauberen Dokumenten beeinträchtigen kann und sehr rechenintensiv ist.
Sie können auch versuchen, Rechtecke zu beschneiden:
https://ironsoftware.com/csharp/ocr/examples/net-tesseract-content-area-rectangle-crop/