身份证件
由于身份证背景上添加了全息图、水印图像、可变数字噪音等防拷贝/防欺诈保护措施,因此身份证件在设计上很难被 OCR 引擎读取。
这并不是说不可能。建议使用 TIFF 或 PNG 等数字噪点较少的图像格式。
建议使用 TIFF 或 PNG 等数字噪点较少的图像格式,而不是 JPEG 等损失较大的图像格式。
还请尝试以下方法 图像优化过滤器:
- 去噪音(); -- 消除数字噪声。该滤波器只能在预计会出现噪点的情况下使用。将 Alpha 通道平铺为白色。
- 深度清洁背景噪音() -- 严重背景噪音去除。只有在已知文档背景噪音极大的情况下才会使用该过滤器,因为该过滤器还可能会降低干净文档的 OCR 精确度,而且 CPU 成本非常高。
您也可以尝试裁剪矩形:
https://ironsoftware.com/csharp/ocr/examples/net-tesseract-content-area-rectangle-crop/