IronOCRでアイデンティティ文書を読む
身分証明書は、ホログラム、透かし画像、可変デジタルノイズなど、カードの背景に付加されたコピー防止/不正防止機能により、OCRエンジンが読み取るのが非常に困難である。
不可能だと言っているわけではない。 TIFFやPNGのようなデジタルノイズの少ない画像形式をお勧めします。
JPEGのような_lossy_画像フォーマット。
以下の画像最適化フィルターもお試しください:
- DeNoise(); -- デジタルノイズを除去する。ノイズが予想される場合にのみ使用する。 アルファチャンネルを白にフラット化します。
-
DeepCleanBackgroundNoise() -- 強いバックグラウンドノイズを除去します。 このフィルタは、きれいな文書のOCR精度を低下させる危険性があり、CPUコストが非常に高いため、極端な文書背景ノイズがわかっている場合にのみ使用してください。
また、長方形を切り抜くこともできる:
https://ironsoftware.com/csharp/ocr/examples/net-tesseract-content-area-rectangle-crop/