IRONOCR VERWENDEN

Lesen von Identitätsdokumenten mit OCR in C#

Veröffentlicht 26. März 2024
Teilen Sie:

Einführung

Optische Zeichenerkennung (OCR) technologie ist zu einem unschätzbaren Werkzeug für die automatische Extraktion von Text aus Bildern geworden, das eine effiziente Datenabfrage und -analyse ermöglicht und menschliche Fehler vermeidet. Mit dieser Technologie können Führerscheine, Pässe, offizielle Dokumente von Institutionen, Personalausweise, Aufenthaltsgenehmigungskarten und Reisedokumente in mehreren Sprachen und verschiedenen Ländern gelesen werden, um das genaue Ablaufdatum, die Nationalität, das Geburtsdatum usw. zu ermitteln. Alle extrahierten Daten können an Softwareprodukte für maschinelles Lernen und künstliche Intelligenz weitergegeben werden.

In diesem Artikel werden wir untersuchen, wie man die IronOCReine leistungsstarke OCR-Bibliothek in C# von Iron Softwareum Informationen aus Ausweisdokumenten zu lesen und zu extrahieren. IronOCR bietet eine unkomplizierte und flexible OCR-Lösung in Form von APIs für OCR-Aufgaben und ist damit eine ausgezeichnete Wahl für Entwickler, die OCR-Softwarefunktionen in ihre Anwendungen integrieren möchten.

IronOCR ermöglicht es Computern, Text aus Bildern, gescannten Dokumenten oder anderen visuellen Darstellungen von Text zu erkennen und zu extrahieren. Um Daten zu extrahieren, sind eine Reihe komplexer Prozesse erforderlich, die die Art und Weise nachahmen, wie Menschen Text visuell wahrnehmen und interpretieren. Dieser Prozess umfasst Bildvorverarbeitung, Texterkennung, Zeichensegmentierung, Merkmalsextraktion, Zeichenerkennung und Nachbearbeitung zur Fehlerkorrektur.

Wie man Identitätsdokumente mit OCR in C# liest;

  1. Erstellen Sie ein neues C#-Projekt in Visual Studio

  2. Installieren Sie die IronOCR .NET-Bibliothek und fügen Sie sie zu Ihrem Projekt hinzu.

  3. Identitätsdokument lesen Bilder mit dem IronOCR bibliothek.

  4. Lesen des Identitätsdokuments aus PDFs.

    IronOCRdie von Iron Software entwickelt und gewartet wird, dient als leistungsstarke Bibliothek für C#-Softwareentwickler, die OCR, Barcode-Scanning und Textextraktion in .NET-Projekten erleichtert.

Hauptmerkmale von IronOCR

Vielseitigkeit beim Lesen von Texten

Fähigkeit, relevante Daten aus verschiedenen Formaten, einschließlich Bildern, zu lesen (JPEG, PNG, GIFF, TIFF, BMP), Streams und PDFs.

Bildverbesserung

Korrigiert minderwertige Scans und Fotos durch eine Reihe von Filtern, wie z. B. Geraderücken, Entrauschen, Binarisieren, Auflösung verbessern, Dilatieren und mehr.

Barcode-Erkennung

Unterstützt das Lesen von Barcodes aus einer breiten Palette von Formaten, die mehr als 20 Barcodetypen umfassen, mit zusätzlicher QR-Code-Erkennung.

Tesseract OCR-Integration

Verwendet die neueste Version von Tesseract OCR, die für optimale Leistung bei der Extraktion von Text aus Bildern optimiert wurde.

Flexible Ausgabeoptionen

Ermöglicht den Export von durchsuchbaren PDFs, HTML und Textinhalten aus Bilddateien und bietet Flexibilität bei der Verwaltung der extrahierten Informationen.

Nun wollen wir uns mit der Entwicklung einer Demo-Anwendung befassen, die IronOCR zum Lesen von ID-Dokumenten verwendet.

Voraussetzungen

  1. Visual Studio: Stellen Sie sicher, dass Sie über Visual Studio oder eine andere C#-Entwicklungsumgebung installiert.

  2. NuGet Package Manager: Stellen Sie sicher, dass Sie NuGet verwenden können, um Pakete in Ihrem Projekt zu verwalten

Schritt 1: Erstellen eines neuen C# Projekts in Visual Studio

Beginnen Sie damit, eine neue C#-Konsolenanwendung in Visual Studio zu erstellen, oder verwenden Sie ein bestehendes Projekt. Wählen Sie im Menü die Option Neues Projekt hinzufügen und wählen Sie dann eine Konsolenanwendung aus den unten stehenden Vorlagen aus.

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 1

Geben Sie in den folgenden Fenstern einen Projektnamen und einen Standort an

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 2

Wählen Sie die gewünschte .NET-Version

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 3

Klicken Sie auf die Schaltfläche Erstellen, um das neue Projekt zu erstellen.

Schritt 2: Installieren Sie die IronOCR-Bibliothek und fügen Sie sie Ihrem Projekt hinzu.

IronOCR finden Sie in der NuGet paketmanager und kann über die Eingabeaufforderung mit den folgenden Befehlen installiert werden.

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 4

IronOCR kann mit Visual Studio installiert werden. Öffnen Sie den NuGet-Paketmanager und suchen Sie nach IronOCR wie unten und klicken Sie auf Installieren

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 5

Nach der Installation ist die Anwendung bereit, folgende Funktionen zu nutzen IronOCR zum Lesen beliebiger Identitätsdokumente für die Datenextraktion und die Identitätsüberprüfung, wodurch die manuelle Dateneingabe reduziert wird.

Schritt 3: Lesen von Bildern des Identitätsdokuments mit der IronOCR-Bibliothek

Die Verwendung von OCR zur Verarbeitung von ID-Dokumenten umfasst viele Schritte, die im Folgenden näher erläutert werden.

Vorverarbeitung von Bildern

Die Verarbeitung von OCR-ID-Dokumenten beginnt mit der Erfassung eines Bildes, das Text enthält. Bei diesem Bild kann es sich um ein gescanntes Ausweisdokument, ein Foto von Ausweisen oder eine andere visuelle Darstellung von Text handeln. Zu den Vorverarbeitungsschritten für Ausweiskarten können Größenanpassung, Rauschunterdrückung und Bildverbesserung gehören, um die Qualität und Klarheit des Bildes zu verbessern.

Text-Erkennung

OCR-Algorithmen müssen die spezifischen Datenbereiche innerhalb des Bildes lokalisieren, in denen Text vorhanden ist. In diesem Schritt werden Textregionen oder Begrenzungsrahmen identifiziert.

Zeichen-Segmentierung

Sobald Textbereiche oder Datenfelder identifiziert sind, wird das Bild weiter analysiert, um einzelne Zeichen zu segmentieren. Dieser Schritt ist besonders wichtig für Sprachen, die unterschiedliche Zeichen verwenden, wie Englisch oder Chinesisch.

Merkmalsextraktion

OCR-Algorithmen analysieren die segmentierten Zeichen, um Merkmale zu extrahieren, die bei der Unterscheidung zwischen verschiedenen Zeichen helfen. Zu diesen Merkmalen können Strichmuster, Form und räumliche Beziehungen zwischen Elementen gehören.

Erkennung von Zeichen

Auf der Grundlage der extrahierten Merkmale klassifizieren OCR-Algorithmen jedes segmentierte Zeichen und weisen ihm eine entsprechende Textdarstellung zu. In diesem Schritt werden häufig Modelle des maschinellen Lernens, wie z. B. neuronale Netze, eingesetzt.

Nachbearbeitung

Die erkannten Zeichen können nachbearbeitet werden, um Fehler zu korrigieren oder die Genauigkeit zu erhöhen. Dieser Schritt kann wörterbuchbasierte Korrekturen, Kontextanalyse oder Sprachmodellierung beinhalten.

IronOCR bibliothek kümmert sich um alle oben genannten Schritte und ermöglicht es uns, OCR mit nur wenigen Codezeilen durchzuführen, was zeitraubende und mühsame Aufgaben erspart.

using IronOcr;
class Program
{
    public static void Main()
    {
        IronTesseract ocrTesseract = new IronTesseract()
        {
            Language = OcrLanguage.EnglishBest,
            Configuration = new TesseractConfiguration()
            {
                ReadBarCodes = false,
                BlackListCharacters = "`ë
^",
                PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
            }
        };
        using var ocrInput = new OcrInput("id1.png");
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
}
using IronOcr;
class Program
{
    public static void Main()
    {
        IronTesseract ocrTesseract = new IronTesseract()
        {
            Language = OcrLanguage.EnglishBest,
            Configuration = new TesseractConfiguration()
            {
                ReadBarCodes = false,
                BlackListCharacters = "`ë
^",
                PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
            }
        };
        using var ocrInput = new OcrInput("id1.png");
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
}
Imports IronOcr
Friend Class Program
	Public Shared Sub Main()
		Dim ocrTesseract As New IronTesseract() With {
			.Language = OcrLanguage.EnglishBest,
			.Configuration = New TesseractConfiguration() With {
				.ReadBarCodes = False,
				.BlackListCharacters = "`ë ^",
				.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
			}
		}
		Dim ocrInput As New OcrInput("id1.png")
		Dim ocrResult = ocrTesseract.Read(ocrInput)
		Console.WriteLine(ocrResult.Text)
	End Sub
End Class
VB   C#

Eingabe Bild

Nachfolgend sehen Sie ein Beispielbild, das als Eingabe für das Programm dient

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 6

Ausgabe

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 7

Code Erläuterung

Der obige Code verwendet die IronOCR bibliothek, um alle Textfelder im ID-Dokument zu lesen. Wir verwenden die Klasse IronTesseract aus der IronOCR bibliothek und konfigurieren Sie sie so, dass sie die englische Sprache und einige Zeichen auf der schwarzen Liste verwendet. Dann deklarieren wir die OCR-Eingabe mit der Klasse OcrInput und lesen dann den Text aus dem Bild. Die extrahierten Textfelder sind in der Konsolenausgabe zu sehen.

Schritt 4: Lesen von Identitätsdokumenten aus PDFs.

Wir können auch aus PDF-Dokumenten lesen. Hierfür können wir die IronPDF bibliothek von IronSoftware. Installieren Sie zunächst die Bibliothek wie folgt

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 8

using IronOcr;
using IronPdf;
class Program
{
    public static void Main()
    {
        var pdfReader = new PdfDocument("id1.pdf");
        var ocrTesseract = new IronTesseract();
        using var ocrInput = new OcrInput();
        ocrInput.AddPdf(pdfReader.Stream);
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
}
using IronOcr;
using IronPdf;
class Program
{
    public static void Main()
    {
        var pdfReader = new PdfDocument("id1.pdf");
        var ocrTesseract = new IronTesseract();
        using var ocrInput = new OcrInput();
        ocrInput.AddPdf(pdfReader.Stream);
        var ocrResult = ocrTesseract.Read(ocrInput);
        Console.WriteLine(ocrResult.Text);
    }
}
Imports IronOcr
Imports IronPdf
Friend Class Program
	Public Shared Sub Main()
		Dim pdfReader = New PdfDocument("id1.pdf")
		Dim ocrTesseract = New IronTesseract()
		Dim ocrInput As New OcrInput()
		ocrInput.AddPdf(pdfReader.Stream)
		Dim ocrResult = ocrTesseract.Read(ocrInput)
		Console.WriteLine(ocrResult.Text)
	End Sub
End Class
VB   C#

Der obige Code verwendet IronPDF, um das id.PDF-Dokument zu laden, und dieses PDF wird als Stream an OcrInput und ocrTesseract übergeben.

Ausgabe

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 9

Lizenzierung (kostenlose Testversion verfügbar)

IronOCR. Dieser Schlüssel muss in appsettings.json. abgelegt werden

"IRONOCR-LICENSE-KEY": "your license key"
"IRONOCR-LICENSE-KEY": "your license key"
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'"IRONOCR-LICENSE-KEY": "your license key"
VB   C#

Geben Sie die E-Mail-ID des Benutzers an, um eine Testlizenz zu erhalten.

Wie man Identitätsdokumente mit OCR in C# liest: Abbildung 10

Anwendungsfälle

1. Identitätsüberprüfung bei Finanzdienstleistungen:

Anwendungsfall: Banken und Finanzinstitute setzen OCR ein, um Identitätsdokumente wie Pässe, Führerscheine und ID-Karten während des Onboarding- und KYC-Prozesses für Kunden zu lesen.

Vorteile: Gewährleistet eine genaue und effiziente Identitätsüberprüfung bei der Einrichtung von Konten, Kreditanträgen und anderen Finanztransaktionen.

2. Grenzkontrolle und Einwanderung:

Anwendungsfall: Einwanderungsbehörden setzen OCR-Technologie ein, um an Grenzkontrollstellen Informationen aus Pässen und Visa zu lesen und zu authentifizieren.

Vorteile: Straffung des Einwanderungsprozesses, Erhöhung der Sicherheit und Verringerung manueller Dateneingabefehler.

3. Zugangskontrolle und Sicherheit:

Anwendungsfall: OCR wird in Zugangskontrollsystemen eingesetzt, um Informationen von ID-Karten, Mitarbeiterausweisen oder Gesichtserkennungsscans zu lesen und so den Zugang zu Gebäuden oder Sperrbereichen zu sichern.

Vorteile: Erhöht die Sicherheit, indem es sicherstellt, dass nur befugte Personen Zugang erhalten, und bietet eine digitale Aufzeichnung der Einträge.

4. E-Government-Dienste:

Anwendungsfall: Behörden nutzen OCR, um ID-Dokumente zu verarbeiten und zu überprüfen, die online für Dienste wie die Erneuerung von Führerscheinen, Steuererklärungen und Genehmigungsanträge eingereicht werden.

Vorteile: Höhere Effizienz, weniger Papierkram und insgesamt ein besseres Erlebnis für die Bürger.

5. Identitätsüberprüfung im Gesundheitswesen:

Anwendungsfall: Gesundheitsdienstleister verwenden OCR, um Informationen von Patientenausweisen, Versicherungskarten und anderen Identitätsdokumenten zu lesen und so eine genaue Patientenakte zu führen.

Vorteile: Erleichtert die genaue Identifizierung von Patienten, gewährleistet eine ordnungsgemäße Verwaltung von Krankenakten und unterstützt Abrechnungsprozesse.

6. Automatisierter Hotel Check-In:

Anwendungsfall: Hotels setzen OCR für automatisierte Check-in-Prozesse ein, indem sie die Ausweispapiere der Gäste scannen und so den Registrierungsprozess rationalisieren.

Vorteile: Verbessert das Gästeerlebnis, verkürzt die Check-in-Zeit und minimiert Fehler bei der Erfassung von Gästedaten.

7. Intelligente Städte und öffentliche Dienstleistungen:

Anwendungsfall: OCR wird im Rahmen von Smart-City-Initiativen eingesetzt, um Identitätsdokumente für Dienste wie den Zugang zu öffentlichen Verkehrsmitteln, Bibliotheksmitgliedschaften und die Registrierung für städtische Veranstaltungen zu lesen.

Vorteile: Verbessert die Effizienz der öffentlichen Dienste, erleichtert den nahtlosen Zugang und verbessert das städtische Lebensgefühl.

8. Bildungsverwaltung:

Anwendungsfall: Bildungseinrichtungen verwenden OCR zur Verarbeitung und Überprüfung von ID-Dokumenten bei der Zulassung von Studenten, bei Prüfungen und bei der Ausstellung von akademischen Bescheinigungen.

Vorteile: Gewährleistet korrekte Studentendaten, reduziert den Verwaltungsaufwand und verbessert die Integrität akademischer Prozesse.

Schlussfolgerung

Integration der OCR-Technologie in Ihre C#-Anwendung mit IronOCR ermöglicht Ihnen die effiziente Extraktion von Informationen aus ID-Dokumenten. Dieser umfassende Leitfaden enthält die notwendigen Schritte für die Einrichtung Ihres Projekts und die Verwendung IronOCR um Bilder von Identitätsdokumenten zu lesen und zu verarbeiten. Experimentieren Sie mit den Codebeispielen, um den Extraktionsprozess an Ihre spezifischen Anforderungen anzupassen und eine nahtlose und automatisierte Lösung für die Verarbeitung von Identitätsdokumentdaten zu schaffen.

< PREVIOUS
Wie man Zeichenerkennung in C# erstellt
NÄCHSTES >
Erstellen eines OCR-Bon-Scanners in C#

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 2,561,036 Lizenzen anzeigen >