IRONOCR VERWENDEN

OCR-Bon-Datenextraktion (Schritt-für-Schritt-Anleitung)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

8. Mai 2023

Aktualisiert 28. Januar 2024

Teilen Sie:

Die OCR von Quittungen mit IronOCR ist sowohl für Unternehmen als auch für Privatpersonen von großer Bedeutung. Das Verfahren ermöglicht es Ihnen, wichtige Informationen aus physischen Quittungen zu extrahieren und sie in digitale Daten umzuwandeln. In diesem Artikel erfahren Sie Schritt für Schritt, wie Sie IronOCR nutzen können, um das Beste aus Ihren Quittungen herauszuholen.

Eine kurze Einführung in OCR

Optical Character Recognition (OCR) ist eine Technologie, die es Computern ermöglicht, Text aus Bildern oder gescannten Dokumenten zu lesen und zu verstehen. Durch die Umwandlung gedruckter Texte in maschinenlesbaren Text ermöglicht OCR, die in physischen Dokumenten enthaltenen Informationen zu speichern, zu verarbeiten und zu analysieren.

2. Einführung in IronOCR

IronOCR ist eine OCR (Optical Character Recognition) Bibliothek für C#- und .NET-Entwickler. Es ermöglicht Entwicklern, Text aus Bildern, PDFs und anderen Dokumentformaten zu extrahieren. IronOCR basiert auf der beliebten Tesseract OCR-Engine und bietet zusätzliche Funktionalitäten, was es zu einer idealen Wahl für verschiedene Anwendungen, einschließlich Beleg-OCR, macht.

3. Vorteile der Verwendung von IronOCR für die Datenextraktion

Im Folgenden werden einige der wichtigsten Vorteile der Verwendung von IronOCR für die OCR-Bon-Datenextraktion aufgeführt:

Hohe Genauigkeit: IronOCR bietet eine ausgezeichnete OCR-API-Genauigkeit, die eine zuverlässige Datenerfassung von Belegen und anderen Dokumenten gewährleistet.

Mehrsprachige Unterstützung: IronOCR unterstützt über 125 Sprachen, was es für globale Anwendungen geeignet macht.

Einfach zu verwenden: Die Bibliothek bietet eine einfache und intuitive API, die es Entwicklern leicht macht, OCR-Funktionalität in ihren Projekten zu implementieren.

Anpassbar: IronOCR bietet verschiedene Optionen zur Feinabstimmung der OCR-Ergebnisse, um eine optimale Datenerfassung für Ihren spezifischen Anwendungsfall zu gewährleisten.

4. Wie IronOCR funktioniert

IronOCR setzt fortschrittliche OCR-Algorithmen ein, um Text aus Bildern und Dokumenten zu erkennen und zu extrahieren. Es kann verschiedene Formate verarbeiten, darunter JPEG, PNG, TIFF und PDF. Die Bibliothek liest die Eingabedatei, erkennt den darin enthaltenen Text und gibt den extrahierten Text als Zeichenkette aus, die dann nach Bedarf verarbeitet oder gespeichert werden kann. IronOCR verwendet auch Computer Vision für beste Ergebnisse.

5. Voraussetzungen für die Verwendung von IronOCR

Um IronOCR für die Extraktion von Belegdaten zu verwenden, müssen Sie zunächst das IronOCR-Paket installieren. Dies kann einfach über NuGet, den Paketmanager für .NET, erfolgen. Öffnen Sie einfach Ihr Projekt in Visual Studio und führen Sie die folgenden Schritte aus:

Klicken Sie mit der rechten Maustaste auf Ihr Projekt im Projektmappen-Explorer und wählen Sie "NuGet-Pakete verwalten".
Suchen Sie im Fenster des NuGet-Paketmanagers nach "IronOCR".
Wählen Sie das IronOcr-Paket aus und klicken Sie auf „Installieren“.
Suche nach dem IronOcr-Paket im NuGet-Paket-Manager-UI

6. Vorbereiten des Quittungsbildes

Bevor Sie Daten aus dem Beleg extrahieren, sollten Sie sicherstellen, dass die Belegbilder von hoher Qualität sind, um die Genauigkeit des OCR-API-Prozesses für den Beleg zu verbessern. Hier finden Sie einige Tipps, wie Sie ein gutes Bild Ihrer Quittung aufnehmen können:

Verwenden Sie ein gescanntes Dokument. Sie können einen hochauflösenden Scanner zum Scannen von Belegen verwenden.
Achten Sie darauf, dass die Quittung gut beleuchtet und frei von Schatten ist.
Glätten Sie alle Knicke und Falten auf dem Beleg, damit keine wichtigen Informationen verborgen bleiben.
Achten Sie darauf, dass der Text auf dem Beleg klar und nicht verschmiert ist, um die Bearbeitung des Belegs zu verbessern.
Beispiel für ein Quittungsbild zur Textextraktion

7. Durchführen von OCR auf dem Quittungsbild

Wenn IronOCR installiert ist und das Bild Ihrer Quittung fertig ist, können Sie den OCR-Prozess durchführen. Verwenden Sie in Ihrer .NET-Anwendung den folgenden Codeschnipsel:

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}

using IronOcr;

var ocr = new IronTesseract();
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    var result = ocr.Read(ocrInput);
    Console.WriteLine(result.Text);
}

Imports IronOcr

Private ocr = New IronTesseract()
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
	Dim result = ocr.Read(ocrInput)
	Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

Erläuterung des Codes

using IronOcr;

using IronOcr;

Imports IronOcr

$vbLabelText $csharpLabel

Diese Zeile importiert die IronOCR-Bibliothek in Ihre .NET-Anwendung und ermöglicht Ihnen den Zugriff auf ihre Funktionen.

var ocr = new IronTesseract();

var ocr = new IronTesseract();

Dim ocr = New IronTesseract()

$vbLabelText $csharpLabel

Diese Zeile erstellt eine neue Instanz der IronTesseract-Klasse, der Hauptklasse, die für OCR-Operationen in IronOCR verantwortlich ist.

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))

Using ocrInput As New OcrInput("path/to/your/receipt/image.png")

$vbLabelText $csharpLabel

Hier wird eine neue Instanz der OcrInput-Klasse erstellt, die das Eingabebild für den OCR-Prozess darstellt. Der @"path/to/your/receipt/image.png" sollte durch den tatsächlichen Dateipfad Ihres Belegbildes ersetzt werden. Die using-Anweisung stellt sicher, dass die für die OcrInput-Instanz zugewiesenen Ressourcen ordnungsgemäß freigegeben werden, sobald der OCR-Vorgang abgeschlossen ist.

var result = Ocr.Read(ocrInput);

var result = Ocr.Read(ocrInput);

Dim result = Ocr.Read(ocrInput)

$vbLabelText $csharpLabel

Diese Zeile ruft die Read-Methode der IronTesseract-Instanz auf und übergibt das OcrInput-Objekt als Parameter. Die Read-Methode verarbeitet das Eingabebild und führt die OCR-Operation durch, erkennt und extrahiert Text aus dem Bild. Damit beginnt der Prozess der Quittungserkennung.

Console.WriteLine(Result.Text);

Console.WriteLine(Result.Text);

Console.WriteLine(Result.Text)

$vbLabelText $csharpLabel

Schließlich gibt diese Zeile den extrahierten Text auf der Konsole aus. Das result-Objekt, welches eine Instanz der OcrResult-Klasse ist, enthält den erkannten Text und zusätzliche Informationen über den OCR-Prozess. Der extrahierte Text kann angezeigt werden, indem auf die Text-Eigenschaft des result-Objekts zugegriffen wird.

OCR-Beleg-Datenextraktion (Schritt-für-Schritt-Anleitung), Abbildung 3: Ausgabe der extrahierten Texte

Ausgabe der extrahierten Texte

Feinabstimmung der OCR-Ergebnisse

IronOCR bietet mehrere Optionen zur Verbesserung der OCR-Genauigkeit und -Leistung. Dazu gehören die Vorverarbeitung des Bildes, die Anpassung der Einstellungen der OCR-Engine und die Auswahl der geeigneten Sprache für Ihren Beleg.

Vorverarbeitung von Bildern

Sie können die OCR-Ergebnisse verbessern, indem Sie Bildvorverarbeitungstechniken wie z. B. anwenden:

Schräglagenentfernung: Korrigiert jede Drehung oder Neigung des Bildes.
Rauschunterdrückung: Verbessern Sie die Lesbarkeit von Text, indem Sie Rauschen aus den Bildern entfernen.
Im Folgenden finden Sie ein Beispiel für die Anwendung dieser Techniken:

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}

using IronOcr;

var ocr = new IronTesseract();
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise();
    input.DeSkew();

    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}

Imports IronOcr

Private ocr = New IronTesseract()
Using input = New OcrInput("path/to/your/receipt/image.png")
	input.DeNoise()
	input.DeSkew()

	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

Auswahl der Sprache

IronOCR unterstützt mehr als 125 Sprachen, und die Wahl der richtigen Sprache für Ihren Beleg kann die OCR-Ergebnisse erheblich verbessern. Um die Sprache anzugeben, fügen Sie die folgende Zeile in Ihren Code ein:

ocr.Configuration.Language = OcrLanguage.English;

ocr.Configuration.Language = OcrLanguage.English;

ocr.Configuration.Language = OcrLanguage.English

$vbLabelText $csharpLabel

Extrahieren von Daten aus OCR-Ergebnissen

Nach Abschluss des OCR-Prozesses ist es nun an der Zeit, spezifische Informationen aus dem Text zu extrahieren. Je nach Bedarf möchten Sie vielleicht Daten wie diese extrahieren:

Name und Adresse des Geschäfts.
Datum und Uhrzeit des Kaufs.
Artikelbezeichnungen und Preise.
Zwischensumme, Steuer und Gesamtbetrag.
Dazu können Sie in Ihrer .NET-Anwendung reguläre Ausdrücke oder Techniken zur Stringmanipulation verwenden. Mit dem folgenden Codeschnipsel können Sie beispielsweise das Datum aus dem OCR-Ergebnis extrahieren:

using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}

using System.Text.RegularExpressions;

//Rest of the Code

var DatePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";
var DateMatch = Regex.Match(Result.Text, DatePattern);
if (DateMatch.Success)
{
    var DateValue = DateTime.Parse(DateMatch.Value);
    Console.WriteLine("Date: " + DateValue);
}

Imports System.Text.RegularExpressions

'Rest of the Code

Private DatePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"
Private DateMatch = Regex.Match(Result.Text, DatePattern)
If DateMatch.Success Then
	Dim DateValue = DateTime.Parse(DateMatch.Value)
	Console.WriteLine("Date: " & DateValue)
End If

$vbLabelText $csharpLabel

Sie können ähnliche Muster für andere Informationen erstellen, die Sie aus dem Beleg extrahieren möchten.

Speichern und Analysieren der extrahierten Daten

Nachdem Sie nun die relevanten Informationen aus Ihrem Beleg extrahiert haben, können Sie sie in einer Datenbank speichern, analysieren oder in andere Dateiformate wie CSV, JSON oder Excel exportieren.

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass die OCR von Quittungen mit IronOCR eine innovative und effiziente Lösung für die Digitalisierung und Verwaltung Ihrer Finanzdaten ist; mit IronOCR können Sie die manuelle Dateneingabe ersetzen. Anhand dieser Schritt-für-Schritt-Anleitung können Sie die Leistungsfähigkeit von IronOCR nutzen, um Ihre Kostenerfassung und Datenanalyse zu verbessern. Das Beste daran ist, dass IronOCR eine kostenlose Testversion anbietet, sodass Sie seine Fähigkeiten ohne Verpflichtung erleben können.

Nach der Testphase, falls Sie sich entscheiden, IronOCR weiter zu verwenden, beginnt die Lizenz mit $749, was eine kostengünstige Möglichkeit bietet, die Vorteile der OCR-Technologie in Ihren Anwendungen zu nutzen.

Kannapat Udonpant

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.

< PREVIOUS
Wie man in Blazor Text aus einem Bild liest

NÄCHSTES >
OCR mit Computer Vision (Beispiel-Tutorial)