Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Optische Zeichenerkennung(OCR) technologie ist zu einem unschätzbaren Werkzeug für die automatische Extraktion von Text aus Bildern geworden, das eine effiziente Datenabfrage und -analyse ermöglicht und menschliche Fehler vermeidet. Mit dieser Technologie können Führerscheine, Pässe, offizielle Dokumente von Institutionen, Personalausweise, Aufenthaltsgenehmigungskarten und Reisedokumente in mehreren Sprachen und verschiedenen Ländern gelesen werden, um das genaue Ablaufdatum, die Nationalität, das Geburtsdatum usw. zu ermitteln. Alle extrahierten Daten können an Softwareprodukte für maschinelles Lernen und künstliche Intelligenz weitergegeben werden.
In diesem Artikel werden wir untersuchen, wie man dieIronOCReine leistungsstarke OCR-Bibliothek in C# vonIron Softwareum Informationen aus Ausweisdokumenten zu lesen und zu extrahieren. IronOCR bietet eine unkomplizierte und flexible OCR-Lösung in Form von APIs für OCR-Aufgaben und ist damit eine ausgezeichnete Wahl für Entwickler, die OCR-Softwarefunktionen in ihre Anwendungen integrieren möchten.
IronOCR ermöglicht es Computern, Text aus Bildern, gescannten Dokumenten oder anderen visuellen Darstellungen von Text zu erkennen und zu extrahieren. Um Daten zu extrahieren, sind eine Reihe komplexer Prozesse erforderlich, die die Art und Weise nachahmen, wie Menschen Text visuell wahrnehmen und interpretieren. Dieser Prozess umfasst Bildvorverarbeitung, Texterkennung, Zeichensegmentierung, Merkmalsextraktion, Zeichenerkennung und Nachbearbeitung zur Fehlerkorrektur.
Erstellen Sie ein neues C#-Projekt in Visual Studio
Installieren Sie dieIronOCR .NET-Bibliothek und fügen Sie sie zu Ihrem Projekt hinzu.
Identitätsdokument lesen Bilder mit demIronOCR bibliothek.
Lesen des Identitätsdokuments aus PDFs.
IronOCRdie von Iron Software entwickelt und gewartet wird, dient als leistungsstarke Bibliothek für C#-Softwareentwickler, die OCR, Barcode-Scanning und Textextraktion in .NET-Projekten erleichtert.
Fähigkeit, relevante Daten aus verschiedenen Formaten, einschließlich Bildern, zu lesen(JPEG, PNG, GIFF, TIFF, BMP), Streams und PDFs.
Korrigiert minderwertige Scans und Fotos durch eine Reihe von Filtern, wie z. B. Geraderücken, Entrauschen, Binarisieren, Auflösung verbessern, Dilatieren und mehr.
Unterstützt das Lesen von Barcodes aus einer breiten Palette von Formaten, die mehr als 20 Barcodetypen umfassen, mit zusätzlicher QR-Code-Erkennung.
Verwendet die neueste Version von Tesseract OCR, die für optimale Leistung bei der Extraktion von Text aus Bildern optimiert wurde.
Ermöglicht den Export von durchsuchbaren PDFs, HTML und Textinhalten aus Bilddateien und bietet Flexibilität bei der Verwaltung der extrahierten Informationen.
Nun wollen wir uns mit der Entwicklung einer Demo-Anwendung befassen, die IronOCR zum Lesen von ID-Dokumenten verwendet.
Visual Studio: Stellen Sie sicher, dass Sie überVisual Studio oder eine andere C#-Entwicklungsumgebung installiert.
Beginnen Sie damit, eine neue C#-Konsolenanwendung in Visual Studio zu erstellen, oder verwenden Sie ein bestehendes Projekt. Wählen Sie im Menü die Option Neues Projekt hinzufügen und wählen Sie dann eine Konsolenanwendung aus den unten stehenden Vorlagen aus.
Geben Sie in den folgenden Fenstern einen Projektnamen und einen Standort an
Wählen Sie die gewünschte .NET-Version
Klicken Sie auf die Schaltfläche Erstellen, um das neue Projekt zu erstellen.
IronOCR finden Sie in derNuGet paketmanager und kann über die Eingabeaufforderung mit den folgenden Befehlen installiert werden.
IronOCR kann mit Visual Studio installiert werden. Öffnen Sie den NuGet-Paketmanager und suchen Sie nachIronOCR wie unten und klicken Sie auf Installieren
Nach der Installation ist die Anwendung bereit, folgende Funktionen zu nutzenIronOCR zum Lesen beliebiger Identitätsdokumente für die Datenextraktion und die Identitätsüberprüfung, wodurch die manuelle Dateneingabe reduziert wird.
Die Verwendung von OCR zur Verarbeitung von ID-Dokumenten umfasst viele Schritte, die im Folgenden näher erläutert werden.
Die Verarbeitung von OCR-ID-Dokumenten beginnt mit der Erfassung eines Bildes, das Text enthält. Bei diesem Bild kann es sich um ein gescanntes Ausweisdokument, ein Foto von Ausweisen oder eine andere visuelle Darstellung von Text handeln. Zu den Vorverarbeitungsschritten für Ausweiskarten können Größenanpassung, Rauschunterdrückung und Bildverbesserung gehören, um die Qualität und Klarheit des Bildes zu verbessern.
OCR-Algorithmen müssen die spezifischen Datenbereiche innerhalb des Bildes lokalisieren, in denen Text vorhanden ist. In diesem Schritt werden Textregionen oder Begrenzungsrahmen identifiziert.
Sobald Textbereiche oder Datenfelder identifiziert sind, wird das Bild weiter analysiert, um einzelne Zeichen zu segmentieren. Dieser Schritt ist besonders wichtig für Sprachen, die unterschiedliche Zeichen verwenden, wie Englisch oder Chinesisch.
OCR-Algorithmen analysieren die segmentierten Zeichen, um Merkmale zu extrahieren, die bei der Unterscheidung zwischen verschiedenen Zeichen helfen. Zu diesen Merkmalen können Strichmuster, Form und räumliche Beziehungen zwischen Elementen gehören.
Auf der Grundlage der extrahierten Merkmale klassifizieren OCR-Algorithmen jedes segmentierte Zeichen und weisen ihm eine entsprechende Textdarstellung zu. In diesem Schritt werden häufig Modelle des maschinellen Lernens, wie z. B. neuronale Netze, eingesetzt.
Die erkannten Zeichen können nachbearbeitet werden, um Fehler zu korrigieren oder die Genauigkeit zu erhöhen. Dieser Schritt kann wörterbuchbasierte Korrekturen, Kontextanalyse oder Sprachmodellierung beinhalten.
IronOCR bibliothek kümmert sich um alle oben genannten Schritte und ermöglicht es uns, OCR mit nur wenigen Codezeilen durchzuführen, was zeitraubende und mühsame Aufgaben erspart.
using IronOcr;
class Program
{
public static void Main()
{
IronTesseract ocrTesseract = new IronTesseract()
{
Language = OcrLanguage.EnglishBest,
Configuration = new TesseractConfiguration()
{
ReadBarCodes = false,
BlackListCharacters = "`ë
^",
PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
}
};
using var ocrInput = new OcrInput("id1.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
using IronOcr;
class Program
{
public static void Main()
{
IronTesseract ocrTesseract = new IronTesseract()
{
Language = OcrLanguage.EnglishBest,
Configuration = new TesseractConfiguration()
{
ReadBarCodes = false,
BlackListCharacters = "`ë
^",
PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd,
}
};
using var ocrInput = new OcrInput("id1.png");
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
Imports IronOcr
Friend Class Program
Public Shared Sub Main()
Dim ocrTesseract As New IronTesseract() With {
.Language = OcrLanguage.EnglishBest,
.Configuration = New TesseractConfiguration() With {
.ReadBarCodes = False,
.BlackListCharacters = "`ë ^",
.PageSegmentationMode = TesseractPageSegmentationMode.AutoOsd
}
}
Dim ocrInput As New OcrInput("id1.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Sub
End Class
Nachfolgend sehen Sie ein Beispielbild, das als Eingabe für das Programm dient
Der obige Code verwendet dieIronOCR bibliothek, um alle Textfelder im ID-Dokument zu lesen. Wir verwenden die Klasse IronTesseract aus derIronOCR bibliothek und konfigurieren Sie sie so, dass sie die englische Sprache und einige Zeichen auf der schwarzen Liste verwendet. Dann deklarieren wir die OCR-Eingabe mit der Klasse OcrInput und lesen dann den Text aus dem Bild. Die extrahierten Textfelder sind in der Konsolenausgabe zu sehen.
Wir können auch aus PDF-Dokumenten lesen. Hierfür können wir dieIronPDF bibliothek von IronSoftware. Installieren Sie zunächst die Bibliothek wie folgt
using IronOcr;
using IronPdf;
class Program
{
public static void Main()
{
var pdfReader = new PdfDocument("id1.pdf");
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.AddPdf(pdfReader.Stream);
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
using IronOcr;
using IronPdf;
class Program
{
public static void Main()
{
var pdfReader = new PdfDocument("id1.pdf");
var ocrTesseract = new IronTesseract();
using var ocrInput = new OcrInput();
ocrInput.AddPdf(pdfReader.Stream);
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
}
Imports IronOcr
Imports IronPdf
Friend Class Program
Public Shared Sub Main()
Dim pdfReader = New PdfDocument("id1.pdf")
Dim ocrTesseract = New IronTesseract()
Dim ocrInput As New OcrInput()
ocrInput.AddPdf(pdfReader.Stream)
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Sub
End Class
Der obige Code verwendet IronPDF, um das id.PDF-Dokument zu laden, und dieses PDF wird als Stream an OcrInput und ocrTesseract übergeben.
IronOCR. Dieser Schlüssel muss in appsettings.json. abgelegt werden
"IRONOCR-LICENSE-KEY": "your license key"
"IRONOCR-LICENSE-KEY": "your license key"
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'"IRONOCR-LICENSE-KEY": "your license key"
Geben Sie die E-Mail-ID des Benutzers an, um eine Testlizenz zu erhalten.
1. Identitätsüberprüfung bei Finanzdienstleistungen:
Anwendungsfall: Banken und Finanzinstitute setzen OCR ein, um Identitätsdokumente wie Pässe, Führerscheine und ID-Karten während des Onboarding- und KYC-Prozesses für Kunden zu lesen.
Vorteile: Gewährleistet eine genaue und effiziente Identitätsüberprüfung bei der Einrichtung von Konten, Kreditanträgen und anderen Finanztransaktionen.
2. Grenzkontrolle und Einwanderung:
Anwendungsfall: Einwanderungsbehörden setzen OCR-Technologie ein, um an Grenzkontrollstellen Informationen aus Pässen und Visa zu lesen und zu authentifizieren.
Vorteile: Straffung des Einwanderungsprozesses, Erhöhung der Sicherheit und Verringerung manueller Dateneingabefehler.
3. Zugangskontrolle und Sicherheit:
Anwendungsfall: OCR wird in Zugangskontrollsystemen eingesetzt, um Informationen von ID-Karten, Mitarbeiterausweisen oder Gesichtserkennungsscans zu lesen und so den Zugang zu Gebäuden oder Sperrbereichen zu sichern.
Vorteile: Erhöht die Sicherheit, indem es sicherstellt, dass nur befugte Personen Zugang erhalten, und bietet eine digitale Aufzeichnung der Einträge.
4. E-Government-Dienste:
Anwendungsfall: Behörden nutzen OCR, um ID-Dokumente zu verarbeiten und zu überprüfen, die online für Dienste wie die Erneuerung von Führerscheinen, Steuererklärungen und Genehmigungsanträge eingereicht werden.
Vorteile: Höhere Effizienz, weniger Papierkram und insgesamt ein besseres Erlebnis für die Bürger.
5. Identitätsüberprüfung im Gesundheitswesen:
Anwendungsfall: Gesundheitsdienstleister verwenden OCR, um Informationen von Patientenausweisen, Versicherungskarten und anderen Identitätsdokumenten zu lesen und so eine genaue Patientenakte zu führen.
Vorteile: Erleichtert die genaue Identifizierung von Patienten, gewährleistet eine ordnungsgemäße Verwaltung von Krankenakten und unterstützt Abrechnungsprozesse.
6. Automatisierter Hotel Check-In:
Anwendungsfall: Hotels setzen OCR für automatisierte Check-in-Prozesse ein, indem sie die Ausweispapiere der Gäste scannen und so den Registrierungsprozess rationalisieren.
Vorteile: Verbessert das Gästeerlebnis, verkürzt die Check-in-Zeit und minimiert Fehler bei der Erfassung von Gästedaten.
7. Intelligente Städte und öffentliche Dienstleistungen:
Anwendungsfall: OCR wird im Rahmen von Smart-City-Initiativen eingesetzt, um Identitätsdokumente für Dienste wie den Zugang zu öffentlichen Verkehrsmitteln, Bibliotheksmitgliedschaften und die Registrierung für städtische Veranstaltungen zu lesen.
Vorteile: Verbessert die Effizienz der öffentlichen Dienste, erleichtert den nahtlosen Zugang und verbessert das städtische Lebensgefühl.
8. Bildungsverwaltung:
Anwendungsfall: Bildungseinrichtungen verwenden OCR zur Verarbeitung und Überprüfung von ID-Dokumenten bei der Zulassung von Studenten, bei Prüfungen und bei der Ausstellung von akademischen Bescheinigungen.
Vorteile: Gewährleistet korrekte Studentendaten, reduziert den Verwaltungsaufwand und verbessert die Integrität akademischer Prozesse.
Integration der OCR-Technologie in Ihre C#-Anwendung mitIronOCR ermöglicht Ihnen die effiziente Extraktion von Informationen aus ID-Dokumenten. Dieser umfassende Leitfaden enthält die notwendigen Schritte für die Einrichtung Ihres Projekts und die VerwendungIronOCR um Bilder von Identitätsdokumenten zu lesen und zu verarbeiten. Experimentieren Sie mit den Codebeispielen, um den Extraktionsprozess an Ihre spezifischen Anforderungen anzupassen und eine nahtlose und automatisierte Lösung für die Verarbeitung von Identitätsdokumentdaten zu schaffen.
9 .NET API-Produkte für Ihre Bürodokumente