IRONOCR VERWENDEN

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial)

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Kannapat Udonpant

14. Januar 2025

Teilen Sie:

Einführung

Die Verarbeitung von Rechnungsdaten bezieht sich auf das Empfangen, Verwalten und Validieren von Rechnungen von Lieferanten oder Anbietern und stellt sicher, dass die Zahlungen korrekt und pünktlich erfolgen. Dabei handelt es sich um Schritte, die darauf abzielen, Genauigkeit, Compliance und Effizienz bei der Abwicklung von Geschäftstransaktionen zu gewährleisten, um Papierrechnungen zu vermeiden. Die automatisierte Rechnungsverarbeitung kann manuelle Dateneingabefehler erheblich reduzieren und die Effizienz verbessern. IronOCR ist eine leistungsstarke Softwarebibliothek für die optische Zeichenerkennung (OCR), die verwendet werden kann, um Daten oder Text aus Rechnungen aus einer digitalen Datei zu extrahieren. Damit ist sie ein ausgezeichnetes Werkzeug zur Automatisierung der Rechnungsverarbeitung per OCR in C#-Anwendungen.

So verarbeiten Sie Rechnungsdaten mit OCR-Software wie IronOCR

Erstellen Sie ein Visual Studio-Projekt.
Installieren Sie die IronOCR C#-Bibliothek.
Beispielrechnungseingabebild.
Nutzen Sie Tesseract und extrahieren Sie Daten aus dem Belegbild.
Lesen Sie nur einen Bereich eines Bildes.

Optische Zeichenerkennung (OCR)

Optische Zeichenerkennung ist eine Technologie, die es ermöglicht, verschiedene Arten von Dokumenten, PDFs oder Textbildern in bearbeitbare und durchsuchbare Daten umzuwandeln. OCR-Technologie verarbeitet Textbilder und extrahiert die Zeichen, wodurch sie maschinenlesbar werden. Erweiterte OCR-Rechnungssysteme unterstützen bei Finanzverwaltungstools und der Automatisierung von Rechnungen.

Wichtige Punkte über OCR

Funktionalität: OCR-Software scannt Bilder oder Text (z. B. Fotos oder gescannte Dokumente) und konvertiert die Zeichen in digitalen Text, der bearbeitet, durchsucht und gespeichert werden kann.
Anwendungen: OCR wird in verschiedenen Branchen häufig für Aufgaben wie die Digitalisierung gedruckter Dokumente, die Rechnungsverarbeitung, die Extraktion von Formulardaten, die automatische Nummernschilderkennung (ANPR), den Kreditorenworkflow und das Scannen von Büchern eingesetzt.
Technologie: OCR verwendet Algorithmen, um Licht- und Dunkelmuster zu erkennen und Zeichen zu interpretieren. Moderne OCR-Systeme setzen auch maschinelles Lernen und künstliche Intelligenz ein, um die Genauigkeit zu verbessern.
Vorteile: OCR verbessert die Produktivität, indem es die Dateneingabe automatisiert, Fehler reduziert und eine einfachere Suche und Abruf von Daten ermöglicht. Es unterstützt auch die Archivierung von Dokumenten und hilft Unternehmen, papierlose Arbeitsabläufe zu verwalten.
Die OCR-Technologie hat sich erheblich weiterentwickelt, wodurch sie äußerst präzise und nützlich für die Verarbeitung von Dokumenten und die Extraktion von Rechnungsdaten in vielen verschiedenen Rechnungsformaten ist, um die manuelle Dateneingabe zu reduzieren, die manuelle Rechnungsbearbeitung zu eliminieren und die Datensicherheit zu erhöhen.

IronOCR

IronOCR ist eine leistungsstarke Optical Character Recognition (OCR)-Bibliothek für .NET (C#), die es Entwicklern ermöglicht, Text aus Bildern, PDFs und anderen Dokumentformaten zu extrahieren, OCR-Rechnungssoftware zu entwickeln und Workflows für die Kreditorenbuchhaltung zu implementieren. Es bietet eine benutzerfreundliche API zur Integration von OCR-Funktionen in das Kreditorenbuchhaltungssystem oder das Buchhaltungssystem.

Hauptmerkmale von IronOCR

Textextraktion: Es kann Text aus verschiedenen Bildformaten (PNG, JPG, TIFF, etc.) und PDFs extrahieren, einschließlich mehrseitiger PDFs für Buchhaltungssoftware.
Genauigkeit: IronOCR verwendet fortschrittliche Algorithmen und maschinelle Lerntechniken, um eine hohe Genauigkeit bei der Texterkennung zu bieten, selbst bei rauschbelasteten oder minderwertigen Bildern für Kreditorenbuchhaltungsprozesse und Skonti.
Sprachunterstützung: Die Bibliothek unterstützt mehrere Sprachen, darunter Englisch, Spanisch, Französisch und andere, was bei der Erkennung von Texten in verschiedenen Sprachen hilft.
Benutzerfreundlichkeit: IronOCR bietet eine einfache API, die es Entwicklern ermöglicht, OCR-Funktionalität schnell in ihre Anwendungen zu integrieren, ohne dass tiefgehende technische Kenntnisse über OCR-Techniken erforderlich sind.
Barkod- und QR-Code-Erkennung: Zusätzlich zur Standard-Texterkennung kann IronOCR auch Barcodes und QR-Codes aus Bildern erkennen und extrahieren.
PDF-Unterstützung: Es kann Text aus gescannten PDFs lesen und extrahieren, was es nützlich für die Verarbeitung von Rechnungen, Belegen und anderen Geschäftsdokumenten macht.
Anpassung: Die Bibliothek ermöglicht die Anpassung der OCR-Einstellungen für spezifische Bedürfnisse, wie zum Beispiel die Anpassung der Genauigkeit oder die Handhabung unterschiedlicher Bildauflösungen.

Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass Sie Folgendes haben:

Visual Studio ist auf Ihrem Computer installiert.
Grundlegende Kenntnisse der C#-Programmierung.
IronOCR NuGet-Paket in Ihrem Projekt installiert.

Schritt 1: Erstellen Sie ein Visual-Studio-Projekt

Öffnen Sie Visual Studio und klicken Sie auf Neues Projekt erstellen.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 1 - Neues Projekt

Wählen Sie in den Optionen die Konsolenanwendung aus.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 2 - Konsolenanwendung

Geben Sie den Projektnamen und den Pfad an.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 3 - Projekteinstellungen

Wählen Sie den .NET-Versionstyp aus.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 4 - Ziel Framework

Schritt 2: Installieren Sie die IronOCR C#-Bibliothek

In Ihrem Projekt in Visual Studio gehen Sie zu Tools > NuGet-Paket-Manager > NuGet-Pakete für die Lösung verwalten. Klicken Sie auf die Registerkarte Durchsuchen und suchen Sie nach IronOCR. Wählen Sie IronOCR aus und klicken Sie auf Installieren.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 5 - IronOCR

Eine weitere Möglichkeit ist die Verwendung der Konsole und des untenstehenden Befehls.

dotnet add package IronOcr --version 2024.12.2

dotnet add package IronOcr --version 2024.12.2

'INSTANT VB TODO TASK: The following line uses invalid syntax:
'dotnet add package IronOcr --version 2024.12.2

$vbLabelText $csharpLabel

Schritt 3: Beispielhafte Eingangsrechnung Bild

Beispielbild einer digitalen Rechnung mit Rechnungsnummer.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 6 - Beispielinput

Schritt 4: Tesseract verwenden und Daten aus dem Kassenbon-Bild extrahieren

Verwenden Sie nun den folgenden Code, um Daten aus einer Rechnung für die OCR-Rechnungsverarbeitung zu extrahieren.

using IronOcr;
License.LicenseKey = "Your License";
string filePath = "sample1.jpg"; // image for invoice OCR
// Create an instance of IronTesseract
var ocr = new IronTesseract();
// Load the image or PDF file
using (var ocrInput = new OcrInput())
{
    ocrInput.LoadImage(filePath);
    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise(); 
    // Read the text from the image or PDF
    var ocrResult = ocr.Read(ocrInput);
    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);
    // next steps are to process data and use the extracted and validated data with invoice date
}

using IronOcr;
License.LicenseKey = "Your License";
string filePath = "sample1.jpg"; // image for invoice OCR
// Create an instance of IronTesseract
var ocr = new IronTesseract();
// Load the image or PDF file
using (var ocrInput = new OcrInput())
{
    ocrInput.LoadImage(filePath);
    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise(); 
    // Read the text from the image or PDF
    var ocrResult = ocr.Read(ocrInput);
    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);
    // next steps are to process data and use the extracted and validated data with invoice date
}

Imports IronOcr
License.LicenseKey = "Your License"
Dim filePath As String = "sample1.jpg" ' image for invoice OCR
' Create an instance of IronTesseract
Dim ocr = New IronTesseract()
' Load the image or PDF file
Using ocrInput As New OcrInput()
	ocrInput.LoadImage(filePath)
	' Optionally apply filters if needed 
	ocrInput.Deskew()
	' ocrInput.DeNoise(); 
	' Read the text from the image or PDF
	Dim ocrResult = ocr.Read(ocrInput)
	' Output the extracted text
	Console.WriteLine("Extracted Text:")
	Console.WriteLine(ocrResult.Text)
	' next steps are to process data and use the extracted and validated data with invoice date
End Using

$vbLabelText $csharpLabel

Code Erläuterung

Der bereitgestellte Code zeigt, wie man die IronOCR-Bibliothek in C# verwendet, um Text aus einem Bild (z. B. einer Rechnung) mithilfe von OCR (Optische Zeichenerkennung) zu extrahieren. Hier ist eine Erklärung jedes Teils des Codes ohne den tatsächlichen Code:

Einrichtung des Lizenzschlüssels:
Der Code beginnt mit der Festlegung des Lizenzschlüssels für IronOCR. Dieser Schlüssel ist erforderlich, um die volle Funktionalität der Bibliothek zu nutzen. Wenn Sie über eine gültige Lizenz verfügen, ersetzen Sie "Your License" durch Ihren tatsächlichen Lizenzschlüssel.
Angabe der Eingabedatei:
Die variable filePath enthält den Speicherort des Bildes, das die Rechnung enthält (in diesem Fall "sample1.jpg"). Dies ist die Datei, die zur Textextraktion verarbeitet wird.
Erstellen einer OCR-Instanz:
Eine Instanz von IronTesseract wird erstellt. IronTesseract ist die Klasse, die für die Durchführung der OCR-Operation auf den Eingangsdaten (Bild oder PDF) verantwortlich ist.
Laden des Bildes:
Der Code erstellt dann ein OcrInput-Objekt, das zum Laden des Bildes verwendet wird (in diesem Fall eine JPG-Datei, die durch filePath angegeben ist). Die LoadImage-Methode wird verwendet, um die Bilddatei zu laden und für die OCR vorzubereiten.
Bildfilter anwenden:
Der Code enthält einen Filter-Schritt, bei dem optionale Bildverarbeitungsmethoden wie Deskew (Korrektur von schiefen Bildern) und DeNoise (Entfernung von Bildrauschen) angewendet werden können, um die OCR-Genauigkeit zu verbessern. In diesem Fall ist nur die Deskew-Methode aktiv.
Ausführen von OCR:
- Die Methode ocr.Read() wird verwendet, um Text aus dem geladenen Bild zu extrahieren. Das ocrInput-Objekt, das das Bild enthält, wird an diese Methode übergeben, und sie gibt ein OcrResult-Objekt zurück, das den extrahierten Text enthält.
Anzeigen des extrahierten Textes:
- Der extrahierte Text wird dann in der Konsole ausgegeben. Dieser Text wurde von IronOCR aus dem Bild erkannt und kann für die weitere Verarbeitung verwendet werden.

Ausgabe

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 7 - OCR-Ausgabe mit Rechnungsnummer

Schritt 5: Nur einen Bereich eines Bildes lesen

Um die Effizienz zu verbessern, kann nur ein Teil des Bildes für die Extraktion verwendet werden.

using IronOcr;
using IronSoftware.Drawing;
License.LicenseKey = "Your Key";
string filePath = "sample1.jpg"; 
// Create an instance of IronTesseract
var ocr = new IronTesseract();
// Load the image or PDF file
using (var ocrInput = new OcrInput())
{
    var ContentArea = new Rectangle(x: 0, y: 0, width: 1000, height: 250);
    ocrInput.LoadImage(filePath, ContentArea);
    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise(); 
    // Read the text from the image or PDF
    var ocrResult = ocr.Read(ocrInput);
    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);
}

using IronOcr;
using IronSoftware.Drawing;
License.LicenseKey = "Your Key";
string filePath = "sample1.jpg"; 
// Create an instance of IronTesseract
var ocr = new IronTesseract();
// Load the image or PDF file
using (var ocrInput = new OcrInput())
{
    var ContentArea = new Rectangle(x: 0, y: 0, width: 1000, height: 250);
    ocrInput.LoadImage(filePath, ContentArea);
    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise(); 
    // Read the text from the image or PDF
    var ocrResult = ocr.Read(ocrInput);
    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);
}

Imports IronOcr
Imports IronSoftware.Drawing
License.LicenseKey = "Your Key"
Dim filePath As String = "sample1.jpg"
' Create an instance of IronTesseract
Dim ocr = New IronTesseract()
' Load the image or PDF file
Using ocrInput As New OcrInput()
	Dim ContentArea = New Rectangle(x:= 0, y:= 0, width:= 1000, height:= 250)
	ocrInput.LoadImage(filePath, ContentArea)
	' Optionally apply filters if needed 
	ocrInput.Deskew()
	' ocrInput.DeNoise(); 
	' Read the text from the image or PDF
	Dim ocrResult = ocr.Read(ocrInput)
	' Output the extracted text
	Console.WriteLine("Extracted Text:")
	Console.WriteLine(ocrResult.Text)
End Using

$vbLabelText $csharpLabel

Code Erläuterung

Dieser Code extrahiert Text aus einem bestimmten Bereich eines Bildes mit IronOCR und wendet optional Filter wie das Entschiefen an, um die Genauigkeit zu verbessern. Der extrahierte Text wird dann angezeigt und ist bereit für die weitere Verwendung.

Lizenz-Einrichtung:

Der erste Teil des Codes besteht darin, den Lizenzschlüssel für IronOCR festzulegen. Dies ist erforderlich, um die OCR-Funktionalität in der Bibliothek zu verwenden. Der Lizenzschlüssel sollte durch den tatsächlichen Schlüssel ersetzt werden, den Sie von IronOCR erhalten, damit Sie auf die vollständigen Funktionen der Bibliothek zugreifen können.

2. Definieren des Bilddateipfads:

Der Dateipfad des Bildes, das Sie verarbeiten möchten, wird angegeben. Dieses Bild (in diesem Fall eine JPG-Datei) enthält das Dokument oder den Inhalt, aus dem die OCR den Text extrahieren wird. Der Pfad kann auf eine Bilddatei im lokalen System oder auf einem anderen zugänglichen Speicher verweisen.

3. Erstellen einer OCR-Instanz:

Eine Instanz der IronTesseract-Klasse wird erstellt. Dieses Objekt ist der Kern-Engine, die die optische Zeichenerkennung auf dem Bild durchführen wird.

4. Bestimmen des zu verarbeitenden Bereichs:

Ein Rechteck (Interessengebiet) wird innerhalb des Bildes definiert. Dieses Rechteck gibt den Bereich des Bildes an, auf den sich die OCR-Engine konzentrieren wird. In diesem Beispiel beginnt das Rechteck in der oberen linken Ecke (x=0, y=0) und hat eine Breite von 1000 Pixeln und eine Höhe von 250 Pixeln. Dieser Schritt hilft dem OCR-Prozess, nur den relevanten Abschnitt des Bildes zu verarbeiten, wodurch Genauigkeit und Geschwindigkeit verbessert werden.

5. Das Bild laden:

Das Bild wird in die OCR-Engine geladen, aber nur das definierte Rechteck (der Inhaltsbereich) wird verarbeitet. Damit können Sie den Umfang von OCR auf einen bestimmten Teil des Bildes eingrenzen, was besonders nützlich ist, wenn das Bild irrelevante Bereiche, wie Hintergründe oder Logos, enthält, die Sie nicht verarbeiten möchten.

6. Anwenden von Filtern:

Der Code wendet optional einen Schrägstellungsfilter auf das Bild an. Das Entzerren ist der Prozess des Geradstellens eines Bildes, wenn es eine Neigung oder Rotation aufweist, um die Genauigkeit der OCR zu verbessern. Ein weiterer Filter, denoise, ist verfügbar, aber auskommentiert. Wenn aktiviert, werden Rauschen (unerwünschte Markierungen) aus dem Bild entfernt, was die OCR-Genauigkeit weiter verbessern könnte.

7. Extrahieren des Textes:

Die OCR-Engine liest das Bild (oder den angegebenen Bereich davon) und extrahiert jeden erkannten Text. Das Ergebnis wird in einem Objekt gespeichert, das den erkannten Text enthält.

8. Den extrahierten Text ausgeben:

Schließlich wird der extrahierte Text auf die Konsole gedruckt. Dieser Text ist das Ergebnis des OCR-Prozesses und kann weiterverarbeitet, validiert oder in Anwendungen wie Dateneingabe oder Dokumentenmanagement verwendet werden.

Ausgabe

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 8 - Extrahiertes Ergebnis

Lizenz (Testversion verfügbar)

IronOCR erfordert einen Schlüssel, um Daten aus Rechnungen zu extrahieren. Holen Sie sich Ihren Entwickler-Testschlüssel von der Lizenzseite.

using IronOcr;
License.LicenseKey = "Your Key";

using IronOcr;
License.LicenseKey = "Your Key";

Imports IronOcr
License.LicenseKey = "Your Key"

$vbLabelText $csharpLabel

Schlussfolgerung

Dieser Artikel lieferte ein grundlegendes Beispiel dafür, wie man mit IronOCR für die Rechnungsverarbeitung beginnen kann. Sie können diesen Code weiter anpassen und erweitern, um Ihre spezifischen Anforderungen zu erfüllen.

IronOCR bietet eine effiziente und leicht zu integrierende Lösung zur Textextraktion aus Bildern und PDFs, was es ideal für die Rechnungsverarbeitung macht. Durch die Verwendung von IronOCR in Kombination mit C#-Zeichenfolgen-Manipulation oder regulären Ausdrücken können Sie schnell wichtige Daten aus Rechnungen verarbeiten und extrahieren.

Dies ist ein einfaches Beispiel für die Rechnungsverarbeitung, und mit fortgeschrittenen Konfigurationen (wie Spracherkennung, Verarbeitung von mehrseitigen PDFs usw.) können Sie die OCR-Ergebnisse feinabstimmen, um die Genauigkeit für Ihren spezifischen Anwendungsfall zu verbessern.

Die API von IronOCR ist flexibel und kann für eine Vielzahl von OCR-Aufgaben über die Rechnungsverarbeitung hinaus verwendet werden, einschließlich Belegscannen, Dokumentenkonvertierung und Automatisierung der Dateneingabe.

Kannapat Udonpant

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.

< PREVIOUS
Optimierte Leistung für schnellere, effizientere OCR-Verarbeitung

NÄCHSTES >
OCR-Supermarktquittungen in C# (Entwickler-Tutorial)