身份证件

This article was translated from English: Does it need improvement?
Translated
View the article in English

由于身份证背景上添加了全息图、水印图像、可变数字噪音等防拷贝/防欺诈保护措施,因此身份证件在设计上很难被 OCR 引擎读取。

这并不是说不可能。建议使用 TIFF 或 PNG 等数字噪点较少的图像格式。

建议使用 TIFF 或 PNG 等数字噪点较少的图像格式,而不是 JPEG 等损失较大的图像格式。

还请尝试以下方法 图像优化过滤器:

  • 去噪音(); -- 消除数字噪声。该滤波器只能在预计会出现噪点的情况下使用。将 Alpha 通道平铺为白色。
  • 深度清洁背景噪音() -- 严重背景噪音去除。只有在已知文档背景噪音极大的情况下才会使用该过滤器,因为该过滤器还可能会降低干净文档的 OCR 精确度,而且 CPU 成本非常高。

您也可以尝试裁剪矩形:

https://ironsoftware.com/csharp/ocr/examples/net-tesseract-content-area-rectangle-crop/