IRONOCR VERWENDEN

OCR-Bon-Datenextraktion (Schritt-für-Schritt-Anleitung)

Aktualisiert 28. Januar 2024
Teilen Sie:

Die OCR von Quittungen mit IronOCR ist sowohl für Unternehmen als auch für Privatpersonen von großer Bedeutung. Das Verfahren ermöglicht es Ihnen, wichtige Informationen aus physischen Quittungen zu extrahieren und sie in digitale Daten umzuwandeln. In diesem Artikel erfahren Sie Schritt für Schritt, wie Sie IronOCR nutzen können, um das Beste aus Ihren Quittungen herauszuholen.

Eine kurze Einführung in OCR

Optical Character Recognition (OCR) ist eine Technologie, die es Computern ermöglicht, Text aus Bildern oder gescannten Dokumenten zu lesen und zu verstehen. Durch die Umwandlung von handgeschriebenem oder gedrucktem Text in maschinenlesbaren Text ermöglicht OCR das Speichern, Verarbeiten und Analysieren der in physischen Dokumenten enthaltenen Informationen.

2. Einführung in IronOCR

IronOCR ist eine OCR (Optische Zeichenerkennung) bibliothek für C#- und .NET-Entwickler. Es ermöglicht Entwicklern text aus Bildern extrahieren, PDFsund andere Dokumentenformate. IronOCR basiert auf dem beliebten Tesseract OCR-Engine und fügt zusätzliche Funktionen hinzu, die es zu einer idealen Wahl für verschiedene Anwendungen machen, einschließlich der OCR von Belegen.

3. Vorteile der Verwendung von IronOCR für die Datenextraktion

Im Folgenden werden einige der wichtigsten Vorteile der Verwendung von IronOCR für die OCR-Bon-Datenextraktion aufgeführt:

Hohe Genauigkeit: IronOCR bietet eine hervorragende OCR-API-Genauigkeit, die eine zuverlässige Datenextraktion aus Belegen und anderen Dokumenten gewährleistet.

Mehrsprachige Unterstützung: IronOCR unterstützt über 125 Sprachen und eignet sich daher für globale Anwendungen.

Einfach zu benutzen: Die Bibliothek bietet eine einfache und intuitive API, die es Entwicklern leicht macht, OCR-Funktionen in ihre Projekte zu implementieren.

Anpassbar: IronOCR bietet verschiedene Optionen zur Feinabstimmung der OCR-Ergebnisse, um eine optimale Datenextraktion für Ihren spezifischen Anwendungsfall zu gewährleisten.

4. Wie IronOCR funktioniert

IronOCR setzt fortschrittliche OCR-Algorithmen ein, um Text aus Bildern und Dokumenten zu erkennen und zu extrahieren. Es kann verschiedene Formate verarbeiten, darunter JPEG, PNG, TIFF und PDF. Die Bibliothek liest die Eingabedatei, erkennt den darin enthaltenen Text und gibt den extrahierten Text als Zeichenkette aus, die dann nach Bedarf verarbeitet oder gespeichert werden kann. IronOCR verwendet auch computervision um die besten Ergebnisse zu erzielen.

5. Voraussetzungen für die Verwendung von IronOCR

Um IronOCR für die Extraktion von Belegdaten zu verwenden, müssen Sie zunächst das IronOCR-Paket installieren. Dies kann einfach über NuGet, den Paketmanager für .NET, erfolgen. Öffnen Sie einfach Ihr Projekt in Visual Studio und führen Sie die folgenden Schritte aus:

  1. Klicken Sie mit der rechten Maustaste auf Ihr Projekt im Projektmappen-Explorer und wählen Sie "NuGet-Pakete verwalten".

  2. Suchen Sie im Fenster des NuGet-Paketmanagers nach "IronOCR".

  3. Wählen Sie das Paket IronOcr und klicken Sie auf "Installieren".

    OCR-Empfangsdatenextraktion (Schritt-für-Schritt-Tutorial), Abbildung 1: Suche nach dem IronOCR-Paket in der NuGet Package Manager UI

     **Suchen Sie im NuGet Package Manager UI nach dem Paket "IronOcr "**

6. Vorbereiten des Quittungsbildes

Bevor Sie Daten aus dem Beleg extrahieren, sollten Sie sicherstellen, dass die Belegbilder von hoher Qualität sind, um die Genauigkeit des OCR-API-Prozesses für den Beleg zu verbessern. Hier finden Sie einige Tipps, wie Sie ein gutes Bild Ihrer Quittung aufnehmen können:

  1. Verwenden Sie ein gescanntes Dokument. Sie können einen hochauflösenden Scanner zum Scannen von Belegen verwenden.

  2. Achten Sie darauf, dass die Quittung gut beleuchtet und frei von Schatten ist.

  3. Glätten Sie alle Knicke und Falten auf dem Beleg, damit keine wichtigen Informationen verborgen bleiben.

  4. Achten Sie darauf, dass der Text auf dem Beleg klar und nicht verschmiert ist, um die Bearbeitung des Belegs zu verbessern.

    OCR-Bon-Datenextraktion (Schritt-für-Schritt-Anleitung), Abbildung 2: Beispielbild eines Bons für die Textextraktion

     **Beispielsquittungsbild für Textextraktion**

7. Durchführen von OCR auf dem Quittungsbild

Wenn IronOCR installiert ist und das Bild Ihrer Quittung fertig ist, können Sie den OCR-Prozess durchführen. Verwenden Sie in Ihrer .NET-Anwendung den folgenden Codeschnipsel:

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}
using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}
Imports IronOcr

Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
	Dim result = ocr.Read(ocrInput)
	Console.WriteLine(result.Text)
End Using
VB   C#

Erläuterung des Codes

using IronOcr;
using IronOcr;
Imports IronOcr
VB   C#

Diese Zeile importiert die IronOCR-Bibliothek in Ihre .NET-Anwendung und ermöglicht Ihnen den Zugriff auf ihre Funktionen.

var ocr = new IronTesseract();
var ocr = new IronTesseract();
Dim ocr = New IronTesseract()
VB   C#

Diese Zeile erzeugt eine neue Instanz der eisen-Tesserakt klasse, die Hauptklasse, die für die OCR-Operationen in IronOCR verantwortlich ist.

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
VB   C#

Hier wird eine neue Instanz des ocrInput klasse erstellt, die das Eingabebild für den OCR-Prozess darstellt. Das Feld @"path/to/your/receipt/image.png " sollte durch den tatsächlichen Dateipfad Ihres Quittungsbildes ersetzt werden. Die Anweisung "using" stellt sicher, dass die der Instanz "OCRInput" zugewiesenen Ressourcen ordnungsgemäß freigegeben werden, sobald der OCR-Vorgang abgeschlossen ist.

var result = Ocr.Read(ocrInput);
var result = Ocr.Read(ocrInput);
Dim result = Ocr.Read(ocrInput)
VB   C#

Diese Zeile ruft die lesen methode der IronTesseract-Instanz, wobei das OcrInput-Objekt als Parameter übergeben wird. Die Methode "Read" verarbeitet das Eingabebild und führt die OCR-Operation durch, bei der der Text erkannt und aus dem Bild extrahiert wird. Damit beginnt der Prozess der Quittungserkennung.

Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text);
Console.WriteLine(Result.Text)
VB   C#

Schließlich gibt diese Zeile den extrahierten Text auf der Konsole aus. Das Result-Objekt, das eine Instanz der ocrResult klasse, enthält den erkannten Text und zusätzliche Informationen über den OCR-Prozess. Der extrahierte Text kann durch Zugriff auf die Eigenschaft Text des Result-Objekts angezeigt werden.

OCR-Empfangsdatenextraktion (Schritt-für-Schritt-Anleitung), Abbildung 3: Ausgabe der extrahierten Texte

Ausgabe der extrahierten Texte

Feinabstimmung der OCR-Ergebnisse

IronOCR bietet mehrere Optionen zur Verbesserung der OCR-Genauigkeit und -Leistung. Dazu gehören die Vorverarbeitung des Bildes, die Anpassung der Einstellungen der OCR-Engine und die Auswahl der geeigneten Sprache für Ihren Beleg.

Vorverarbeitung von Bildern

Sie können die OCR-Ergebnisse verbessern, indem Sie Bildvorverarbeitungstechniken wie z. B. anwenden:

  1. Schräglagenentfernung: Korrigiert jede Drehung oder Neigung des Bildes.

  2. Rauschunterdrückung: Verbessern Sie die Lesbarkeit von Text, indem Sie Rauschen aus den Bildern entfernen.

    Im Folgenden finden Sie ein Beispiel für die Anwendung dieser Techniken:

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Imports IronOcr

Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
	input.DeNoise()
	input.DeSkew()

	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
VB   C#

Auswahl der Sprache

IronOCR unterstützt mehr als 125 Sprachen, und die Wahl der richtigen Sprache für Ihren Beleg kann die OCR-Ergebnisse erheblich verbessern. Um die Sprache anzugeben, fügen Sie die folgende Zeile in Ihren Code ein:

ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English
VB   C#

Extrahieren von Daten aus OCR-Ergebnissen

Nach Abschluss des OCR-Prozesses ist es nun an der Zeit, spezifische Informationen aus dem Text zu extrahieren. Je nach Bedarf möchten Sie vielleicht Daten wie diese extrahieren:

  1. Name und Adresse des Geschäfts.

  2. Datum und Uhrzeit des Kaufs.

  3. Artikelbezeichnungen und Preise.

  4. Zwischensumme, Steuer und Gesamtbetrag.

    Dazu können Sie in Ihrer .NET-Anwendung reguläre Ausdrücke oder Techniken zur Stringmanipulation verwenden. Mit dem folgenden Codeschnipsel können Sie beispielsweise das Datum aus dem OCR-Ergebnis extrahieren:

using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}
using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}
Imports System.Text.RegularExpressions

'Rest of the Code

Private DatePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"
Private DateMatch = Regex.Match(Result.Text, DatePattern)
If DateMatch.Success Then
	Dim DateValue = DateTime.Parse(DateMatch.Value)
	Console.WriteLine("Date: " & DateValue)
End If
VB   C#

Sie können ähnliche Muster für andere Informationen erstellen, die Sie aus dem Beleg extrahieren möchten.

Speichern und Analysieren der extrahierten Daten

Nachdem Sie nun die relevanten Informationen aus Ihrem Beleg extrahiert haben, können Sie sie in einer Datenbank speichern, analysieren oder in andere Dateiformate wie CSV, JSON oder Excel exportieren.

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass die OCR von Quittungen mit IronOCR eine innovative und effiziente Lösung für die Digitalisierung und Verwaltung Ihrer Finanzdaten ist; mit IronOCR können Sie die manuelle Dateneingabe ersetzen. Anhand dieser Schritt-für-Schritt-Anleitung können Sie die Leistungsfähigkeit von IronOCR nutzen, um Ihre Kostenerfassung und Datenanalyse zu verbessern. Das Beste daran ist, dass IronOCR eine kostenloser Testso können Sie die Möglichkeiten des Systems unverbindlich testen.

Wenn Sie sich nach der Testphase entscheiden, IronOCR weiter zu nutzen, beginnt die Lizenz bei $749 und bietet eine kostengünstige Möglichkeit, die Vorteile der OCR-Technologie in Ihren Anwendungen zu nutzen.

< PREVIOUS
Wie man in Blazor Text aus einem Bild liest
NÄCHSTES >
OCR mit Computer Vision (Beispiel-Tutorial)

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 2,561,036 Lizenzen anzeigen >