Zum Fußzeileninhalt springen
VERWENDUNG VON IRONOCR

OCR Belegdatenaus extraction (Schritt-für-Schritt-Tutorial)

Die OCR von Quittungen mit IronOCR ist sowohl für Unternehmen als auch für Privatpersonen ein entscheidender Vorteil. Das Verfahren ermöglicht es Ihnen, wichtige Informationen aus physischen Quittungen zu extrahieren und sie in digitale Daten umzuwandeln. In diesem Artikel erfahren Sie Schritt für Schritt, wie Sie IronOCR nutzen können, um das Beste aus Ihren Quittungen herauszuholen.

Eine kurze Einführung in OCR

Optical Character Recognition (OCR) ist eine Technologie, die es Computern ermöglicht, Text aus Bildern oder gescannten Dokumenten zu lesen und zu verstehen. Durch die Umwandlung von gedrucktem Text in maschinenlesbaren Text ermöglicht OCR das Speichern, Verarbeiten und Analysieren der in physischen Dokumenten enthaltenen Informationen.

2. eine Einführung in IronOCR

IronOCR ist eine OCR (Optical Character Recognition) Bibliothek für C# und .NET Entwickler. It enables developers to extract text from images, PDFs, and other document formats. IronOCR basiert auf der beliebten Tesseract OCR-Engine und bietet zusätzliche Funktionen, die es zu einer idealen Wahl für verschiedene Anwendungen machen, einschließlich OCR für Belege.

3. die Vorteile der Verwendung von IronOCR für die Datenextraktion

Im Folgenden werden einige der wichtigsten Vorteile der Verwendung von IronOCR für die Extraktion von OCR-Empfangsdaten genannt:

  • Hohe Genauigkeit: IronOCR bietet eine hervorragende OCR-API-Genauigkeit, die eine zuverlässige Datenextraktion aus Quittungen und anderen Dokumenten gewährleistet.
  • Mehrsprachige Unterstützung: IronOCR unterstützt über 125 Sprachen und eignet sich damit für globale Anwendungen.
  • Einfache Anwendung: Die Bibliothek bietet eine einfache und intuitive API, die es Entwicklern leicht macht, OCR-Funktionen in ihre Projekte zu implementieren.
  • Anpassbar: IronOCR bietet verschiedene Optionen zur Feinabstimmung der OCR-Ergebnisse, um eine optimale Datenextraktion für Ihren speziellen Anwendungsfall zu gewährleisten.

4. wie IronOCR funktioniert

IronOCR setzt fortschrittliche OCR-Algorithmen ein, um Text aus Bildern und Dokumenten zu erkennen und zu extrahieren. Sie kann verschiedene Formate verarbeiten, darunter JPEG, PNG, TIFF und PDF. Die Bibliothek liest die Eingabedatei, erkennt den darin enthaltenen Text und gibt den extrahierten Text als Zeichenkette aus, die dann nach Bedarf verarbeitet oder gespeichert werden kann. IronOCR verwendet auch computer vision für die besten Ergebnisse.

5. Voraussetzungen für die Verwendung von IronOCR

Um IronOCR für die Extraktion von Belegdaten nutzen zu können, müssen Sie zunächst das IronOCR-Paket installieren. Dies kann einfach über NuGet, den Paketmanager für .NET, erfolgen. Öffnen Sie einfach Ihr Projekt in Visual Studio und folgen Sie diesen Schritten:

  1. Klicken Sie mit der rechten Maustaste auf Ihr Projekt im Projektmappen-Explorer und wählen Sie "NuGet-Pakete verwalten".
  2. Suchen Sie im NuGet-Paketmanager-Fenster nach "IronOCR".
  3. Wählen Sie das IronOcr-Paket und klicken Sie auf "Installieren".

    OCR-Empfangsdatenextraktion (Schritt-für-Schritt-Tutorial), Abbildung 1: Suche nach dem IronOcr-Paket in der NuGet Package Manager UI Suchen Sie nach dem IronOcr-Paket in der NuGet Package Manager UI

6. das Bild der Quittung vorbereiten

Bevor Sie Daten aus dem Beleg extrahieren, sollten Sie sicherstellen, dass die Belegbilder von hoher Qualität sind, um die Genauigkeit des OCR-API-Prozesses für den Beleg zu verbessern. Hier finden Sie einige Tipps, um ein gutes Bild Ihrer Quittung zu erhalten:

  1. Verwenden Sie ein gescanntes Dokument. Sie können einen hochauflösenden Scanner zum Scannen von Belegen verwenden.
  2. Achten Sie darauf, dass die Quittung gut beleuchtet und frei von Schatten ist.
  3. Glätten Sie alle Knicke und Falten auf dem Beleg, damit keine wichtigen Informationen verborgen bleiben.
  4. Stellen Sie sicher, dass der Text auf der Quittung klar und nicht verschmiert ist, um die Verarbeitung der Quittung zu verbessern.

    OCR-Empfangsdatenextraktion (Schritt-für-Schritt-Anleitung), Abbildung 2: Beispielbild eines Empfangs für die Textextraktion Bildbeispiel einer Quittung für die Textextraktion

7. OCR auf dem Quittungsbild durchführen

Nach der Installation von IronOCR und der Erstellung des Quittungsbildes ist es nun an der Zeit, den OCR-Prozess durchzuführen. Verwenden Sie in Ihrer .NET-Anwendung den folgenden Codeschnipsel:

using IronOcr;

// Initialize the IronTesseract class, which is responsible for OCR operations
var ocr = new IronTesseract();

// Use the OcrInput class to load the image of your receipt.
// Replace @"path/to/your/receipt/image.png" with the actual file path.
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    // Read the content of the image and perform OCR recognition
    var result = ocr.Read(ocrInput);

    // Output the recognized text to the console
    Console.WriteLine(result.Text);
}
using IronOcr;

// Initialize the IronTesseract class, which is responsible for OCR operations
var ocr = new IronTesseract();

// Use the OcrInput class to load the image of your receipt.
// Replace @"path/to/your/receipt/image.png" with the actual file path.
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
{
    // Read the content of the image and perform OCR recognition
    var result = ocr.Read(ocrInput);

    // Output the recognized text to the console
    Console.WriteLine(result.Text);
}
Imports IronOcr

' Initialize the IronTesseract class, which is responsible for OCR operations
Private ocr = New IronTesseract()

' Use the OcrInput class to load the image of your receipt.
' Replace @"path/to/your/receipt/image.png" with the actual file path.
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
	' Read the content of the image and perform OCR recognition
	Dim result = ocr.Read(ocrInput)

	' Output the recognized text to the console
	Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Erläuterung des Codes

using IronOcr;
using IronOcr;
Imports IronOcr
$vbLabelText   $csharpLabel

Diese Zeile importiert die IronOCR-Bibliothek in Ihre .NET-Anwendung und ermöglicht Ihnen den Zugriff auf ihre Funktionen.

var ocr = new IronTesseract();
var ocr = new IronTesseract();
Dim ocr = New IronTesseract()
$vbLabelText   $csharpLabel

Diese Zeile erzeugt eine neue Instanz der Klasse IronTesseract, der Hauptklasse, die für OCR-Operationen in IronOCR verantwortlich ist.

using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
using (var ocrInput = new OcrInput(@"path/to/your/receipt/image.png"))
Using ocrInput As New OcrInput("path/to/your/receipt/image.png")
$vbLabelText   $csharpLabel

Hier wird eine neue Instanz der Klasse OcrInput erstellt, die das Eingabebild für den OCR-Prozess darstellt. Der @"path/to/your/receipt/image.png" sollte durch den tatsächlichen Dateipfad Ihres Belegbildes ersetzt werden. Die Anweisung using stellt sicher, dass die der OcrInput-Instanz zugewiesenen Ressourcen ordnungsgemäß freigegeben werden, sobald der OCR-Vorgang abgeschlossen ist.

var result = ocr.Read(ocrInput);
var result = ocr.Read(ocrInput);
Dim result = ocr.Read(ocrInput)
$vbLabelText   $csharpLabel

Diese Zeile ruft die Read Methode der IronTesseract Instanz auf und übergibt das OcrInput Objekt als Parameter. Die Methode Lesen verarbeitet das Eingabebild und führt die OCR-Operation durch, wobei der Text erkannt und aus dem Bild extrahiert wird. Sie wird den Prozess der Quittungserkennung einleiten.

Console.WriteLine(result.Text);
Console.WriteLine(result.Text);
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

Schließlich gibt diese Zeile den extrahierten Text auf der Konsole aus. Das Ergebnis-Objekt, das eine Instanz der Klasse OcrResult ist, enthält den erkannten Text und zusätzliche Informationen über den OCR-Prozess. Der extrahierte Text kann durch Zugriff auf die Eigenschaft Text des result-Objekts angezeigt werden.

OCR Receipt Data Extraction (Step-By-Step Tutorial), Abbildung 3: Ausgabe der extrahierten Texte Ausgabe der extrahierten Texte

Feinabstimmung der OCR-Ergebnisse

IronOCR bietet mehrere Optionen zur Verbesserung der OCR-Genauigkeit und -Leistung. Dazu gehören die Vorverarbeitung des Bildes, die Anpassung der Einstellungen der OCR-Engine und die Auswahl der richtigen Sprache für Ihre Quittung.

Bild-Vorbearbeitung

Sie können die OCR-Ergebnisse durch die Anwendung von Bildvorverarbeitungstechniken wie:

  1. Entzerren: Korrigiert jede Drehung oder Neigung des Bildes.
  2. Rauschunterdrückung: Verbessern Sie die Lesbarkeit von Text, indem Sie Rauschen aus den Bildern entfernen.

Hier ist ein Beispiel für die Anwendung dieser Techniken:

using IronOcr;

// Initialize the IronTesseract class
var ocr = new IronTesseract();

// Load the image of your receipt and apply preprocessing techniques
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise(); // Remove noise from the image
    input.DeSkew();  // Correct any skewing in the image

    // Perform OCR and extract the recognized text
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
using IronOcr;

// Initialize the IronTesseract class
var ocr = new IronTesseract();

// Load the image of your receipt and apply preprocessing techniques
using (var input = new OcrInput(@"path/to/your/receipt/image.png"))
{
    input.DeNoise(); // Remove noise from the image
    input.DeSkew();  // Correct any skewing in the image

    // Perform OCR and extract the recognized text
    var result = ocr.Read(input);
    Console.WriteLine(result.Text);
}
Imports IronOcr

' Initialize the IronTesseract class
Private ocr = New IronTesseract()

' Load the image of your receipt and apply preprocessing techniques
Using input = New OcrInput("path/to/your/receipt/image.png")
	input.DeNoise() ' Remove noise from the image
	input.DeSkew() ' Correct any skewing in the image

	' Perform OCR and extract the recognized text
	Dim result = ocr.Read(input)
	Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Sprachauswahl

IronOCR unterstützt mehr als 125 Sprachen, und die Wahl der richtigen Sprache für Ihren Beleg kann die OCR-Ergebnisse erheblich verbessern. Um die Sprache anzugeben, fügen Sie die folgende Zeile in Ihren Code ein:

ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English;
ocr.Configuration.Language = OcrLanguage.English
$vbLabelText   $csharpLabel

Datenextraktion aus OCR-Ergebnissen

Nachdem der OCR-Prozess abgeschlossen ist, ist es an der Zeit, spezifische Informationen aus dem Text zu extrahieren. Je nach Bedarf können Sie Daten extrahieren, wie zum Beispiel:

  1. Name und Adresse des Geschäfts.
  2. Datum und Uhrzeit des Kaufs.
  3. Artikelbezeichnungen und Preise.
  4. Zwischensumme, Steuer und Gesamtbetrag.

Zu diesem Zweck können Sie in Ihrer .NET-Anwendung reguläre Ausdrücke oder Techniken zur Stringmanipulation verwenden. Mit dem folgenden Codeschnipsel können Sie zum Beispiel das Datum aus dem OCR-Ergebnis extrahieren:

using System;
using System.Text.RegularExpressions;

// Define a regular expression pattern for matching dates
var datePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";

// Search for a date in the OCR result text
var dateMatch = Regex.Match(result.Text, datePattern);
if (dateMatch.Success)
{
    // Parse the matched date string into a DateTime object
    var dateValue = DateTime.Parse(dateMatch.Value);
    Console.WriteLine("Date: " + dateValue);
}
using System;
using System.Text.RegularExpressions;

// Define a regular expression pattern for matching dates
var datePattern = @"\d{1,2}\/\d{1,2}\/\d{2,4}";

// Search for a date in the OCR result text
var dateMatch = Regex.Match(result.Text, datePattern);
if (dateMatch.Success)
{
    // Parse the matched date string into a DateTime object
    var dateValue = DateTime.Parse(dateMatch.Value);
    Console.WriteLine("Date: " + dateValue);
}
Imports System
Imports System.Text.RegularExpressions

' Define a regular expression pattern for matching dates
Private datePattern = "\d{1,2}\/\d{1,2}\/\d{2,4}"

' Search for a date in the OCR result text
Private dateMatch = Regex.Match(result.Text, datePattern)
If dateMatch.Success Then
	' Parse the matched date string into a DateTime object
	Dim dateValue = DateTime.Parse(dateMatch.Value)
	Console.WriteLine("Date: " & dateValue)
End If
$vbLabelText   $csharpLabel

Sie können ähnliche Muster für andere Informationen erstellen, die Sie aus der Quittung extrahieren müssen.

Speichern und Analysieren von extrahierten Daten

Nachdem Sie die relevanten Informationen aus Ihrem Beleg extrahiert haben, können Sie sie in einer Datenbank speichern, analysieren oder in andere Dateiformate wie CSV, JSON oder Excel exportieren.

Abschluss

Zusammenfassend lässt sich sagen, dass Receipt OCR mit IronOCR eine innovative und effiziente Lösung für die Digitalisierung und Verwaltung Ihrer Finanzdaten ist. Mit IronOCR können Sie die manuelle Dateneingabe ersetzen. Wenn Sie diese Schritt-für-Schritt-Anleitung befolgen, können Sie die Leistungsfähigkeit von IronOCR nutzen, um Ihre Kostenerfassung und Datenanalyse zu verbessern. Das Beste daran ist, dass IronOCR eine kostenlose Testversion anbietet, die es Ihnen ermöglicht, seine Fähigkeiten ohne jegliche Verpflichtung zu testen.

Wenn Sie sich nach der Testphase dazu entschließen, IronOCR weiter zu nutzen, beginnt die Lizenz bei $799 und bietet Ihnen eine kostengünstige Möglichkeit, die Vorteile der OCR-Technologie in Ihren Anwendungen zu nutzen.

Häufig gestellte Fragen

Wie konvertiere ich ein Belegbild in digitalen Text mit C#?

Sie können ein Belegbild in digitalen Text konvertieren, indem Sie die IronOCR-Klasse IronTesseract initialisieren, das Bild mit OcrInput laden und die Methode Read aufrufen, um den Text zu extrahieren.

Was ist Optische Zeichenerkennung und wie funktioniert sie bei Belegen?

Optische Zeichenerkennung (OCR) ist eine Technologie, die Text aus Bildern oder gescannten Dokumenten in maschinenlesbare Daten umwandelt. Sie funktioniert bei Belegen, indem das Druckmaterial gescannt und in Text umgewandelt wird, der mit IronOCR gespeichert und analysiert werden kann.

Wie kann ich die Qualität der OCR-Ergebnisse für Belegbilder verbessern?

Die Verbesserung der OCR-Ergebnisse kann erreicht werden, indem sichergestellt wird, dass Belegbilder von hoher Qualität sind, Bildvorverarbeitungstechniken wie Schieflagenkorrektur und Rauschunterdrückung verwendet werden und die korrekten Spracheinstellungen in IronOCR ausgewählt werden.

Welche Vorteile bietet die Verwendung einer C#-OCR-Bibliothek für die Belegdatenextraktion?

Die Verwendung einer C#-OCR-Bibliothek wie IronOCR verbessert die Belegdatenextraktion durch hohe Genauigkeit, Unterstützung für über 125 Sprachen und Anpassungsoptionen, wodurch die Integration in .NET-Projekte erleichtert wird.

Wie können extrahierte Belegdaten für Berichterstattung und Analyse verwendet werden?

Extrahierte Belegdaten können in Datenbanken gespeichert oder in Formate wie CSV, JSON oder Excel exportiert werden, was eine weitere Verarbeitung, Berichterstellung und Analyse ermöglicht.

Was ist das Verfahren zur Installation einer OCR-Bibliothek in einer .NET-Umgebung?

Um IronOCR in einer .NET-Umgebung zu installieren, öffnen Sie Visual Studio, navigieren Sie zu 'Manage NuGet Packages', suchen Sie nach 'IronOCR' und installieren Sie es dann in Ihrem Projekt.

Wie können spezifische Daten aus OCR-Ausgaben für Belege extrahiert werden?

Spezifische Daten können aus OCR-Ausgaben extrahiert werden, indem reguläre Ausdrücke oder String-Manipulationen verwendet werden, um Informationen wie Geschäftsnamen, Kaufdaten und Artikelpreise zu extrahieren.

Was sind häufige Herausforderungen bei der Belegdaten-OCR und wie können sie gelöst werden?

Häufige Herausforderungen umfassen schlechte Bildqualität und komplexe Beleglayouts. Diese können durch Verbesserung der Bildqualität, Verwendung von Vorverarbeitungstechniken und Nutzung der Anpassungsoptionen in IronOCR bewältigt werden.

Bietet IronOCR mehrsprachige Unterstützung für Beleg-OCR?

Ja, IronOCR bietet mehrsprachige Unterstützung für Beleg-OCR, sodass es Text in über 125 Sprachen erkennen und verarbeiten kann, was seinen Nutzen für globale Anwendungen erhöht.

Gibt es eine Testversion der C#-OCR-Bibliothek und welche Lizenzierungsoptionen gibt es?

IronOCR bietet eine kostenlose Testversion an, mit der Benutzer seine Funktionen erkunden können. Nach der Testphase stehen verschiedene Lizenzierungsoptionen zur Verfügung, beginnend mit einer kostengünstigen Lite-Version.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen