使用 IronOCR 阅读身份文件
This article was translated from English: Does it need improvement?
TranslatedView the article in English
识别文件在设计上对OCR引擎来说非常难以阅读,因为为了防止复制/欺诈,会在卡片背景中添加全息图、水印图像、可变数字噪声等。
这并不是说这是不可能的。 结果很可能取决于图像质量。建议使用TIFF或PNG等数字噪声较少的图像格式,而不是使用其他格式。
lossy 图像格式,如 JPEG。
请尝试以下操作图像优化过滤器:
- 去噪音(); -- 移除数字噪声。此滤镜仅应在预期有噪声的情况下使用。 将 Alpha 通道平展为白色。
深度清洁背景噪音()-- 重度背景噪音移除。 仅在已知文档背景噪声极端的情况下使用此过滤器,因为此过滤器也可能降低清晰文档的OCR精确度,并且非常耗费CPU。
您也可以尝试裁剪矩形:
https://ironsoftware.com/csharp/ocr/examples/net-tesseract-content-area-rectangle-crop/