Zum Fußzeileninhalt springen
VERWENDUNG VON IRONOCR

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial)

Die Verarbeitung von Rechnungsdaten bezieht sich auf den Erhalt, die Verwaltung und Validierung von Rechnungen von Lieferanten oder Anbietern und stellt sicher, dass Zahlungen korrekt und pünktlich erfolgen. Es umfasst Schritte zur Gewährleistung von Genauigkeit, Compliance und Effizienz bei der Abwicklung von Geschäftstransaktionen, um Papierrechnungen zu vermeiden. Automatisierte Rechnungsverarbeitung kann manuelle Dateneingabefehler erheblich reduzieren und die Effizienz verbessern. IronOCR ist eine leistungsstarke optische Zeichenerkennungs- (OCR-) Softwarebibliothek, die verwendet werden kann, um Daten oder Text von Rechnungen aus einer digitalen Datei zu extrahieren. Dadurch wird es zu einem hervorragenden Werkzeug für die Automatisierung der OCR-Rechnungsverarbeitung in C#-Anwendungen.

So verarbeiten Sie Rechnungsdaten mit OCR-Software wie IronOCR

  1. Ein Visual Studio Projekt erstellen.
  2. Installieren Sie die IronOCR C#-Bibliothek.
  3. Muster-Rechnungseingangsbild.
  4. Nutzen Sie Tesseract und extrahieren Sie Daten aus dem Rechnungsbild.
  5. Lesen Sie nur einen Bereich eines Bildes.

Optische Zeichenerkennung (OCR)

Optische Zeichenerkennung ist eine Technologie, die es ermöglicht, verschiedene Arten von Dokumenten, PDFs oder Bilder von Text in editierbare und durchsuchbare Daten zu erkennen und umzuwandeln. OCR-Technologie verarbeitet Textbilder und extrahiert die Zeichen, um sie maschinenlesbar zu machen. Fortschrittliche OCR-Rechnungssoftware-Systeme helfen bei Finanzverwaltungstools und Rechnungsautomatisierung.

Wichtige Punkte zur OCR

  • Funktionalität: OCR-Software scannt Bilder oder Text (z. B. Fotos oder gescannte Dokumente) und wandelt die Zeichen in digitalen Text um, der bearbeitet, durchsucht und gespeichert werden kann.
  • Anwendungen: OCR wird in verschiedenen Branchen für Aufgaben wie das Digitalisieren gedruckter Dokumente, die Rechnungsverarbeitung, die Formular-Datenextraktion, die automatische Nummernschilderkennung (ANPR), den Kreditorenworkflow und das Scannen von Büchern weit verbreitet eingesetzt.
  • Technologie: OCR verwendet Algorithmen zur Identifizierung von Mustern aus Licht und Dunkel zur Interpretierung von Zeichen. Moderne OCR-Systeme verwenden auch maschinelles Lernen und künstliche Intelligenz, um die Genauigkeit zu verbessern.
  • Vorteile: OCR verbessert die Produktivität, indem es die Dateneingabe automatisiert, Fehler reduziert und die Datenrecherche und -wiederherstellung erleichtert. Es unterstützt auch die Dokumentenarchivierung und hilft Unternehmen, papierlose Workflows zu verwalten.

Die OCR-Technologie hat sich erheblich weiterentwickelt und ist hochgenau und nützlich für die Verarbeitung von Dokumenten und die Extraktion von Rechnungsdaten in verschiedenen Rechnungsformaten, um manuelle Dateneingaben zu reduzieren, die manuelle Rechnungsverarbeitung zu eliminieren und die Datensicherheit zu verbessern.

IronOCR

IronOCR ist eine leistungsstarke optische Zeichenerkennungsbibliothek für .NET (C#), die Entwicklern ermöglicht, Text aus Bildern, PDFs und anderen Dokumentformaten zu extrahieren, OCR-Rechnungssoftware zu entwickeln und den Kreditorenworkflow zu implementieren. Sie bietet eine benutzerfreundliche API zur Integration von OCR-Funktionen in das Kreditorensystem oder Buchhaltungssystem.

Wichtige Merkmale von IronOCR

  • Textextraktion: Es kann Text aus verschiedenen Bildformaten (PNG, JPG, TIFF etc.) und PDFs extrahieren, einschließlich mehrseitiger PDFs für Buchhaltungssoftware.
  • Genauigkeit: IronOCR verwendet fortschrittliche Algorithmen und maschinelle Lerntechniken, um eine hohe Genauigkeit bei der Texterkennung zu gewährleisten, selbst bei lauten oder minderwertigen Bildern für Kreditorenprozesse und Frühzahlerrabatte.
  • Sprachunterstützung: Die Bibliothek unterstützt mehrere Sprachen, darunter Englisch, Spanisch, Französisch und andere, was bei der Texterkennung in verschiedenen Sprachen hilft.
  • Benutzerfreundlichkeit: IronOCR bietet eine einfache API, die es Entwicklern ermöglicht, OCR-Funktionen schnell in ihre Anwendungen zu integrieren, ohne tiefgehendes technisches Wissen über OCR-Techniken zu benötigen.
  • Barcode- und QR-Code-Erkennung: Neben der Standard-Texterkennung kann IronOCR auch Barcodes und QR-Codes aus Bildern erkennen und extrahieren.
  • PDF-Unterstützung: Es kann Text aus gescannten PDFs lesen und extrahieren, was es nützlich macht für die Verarbeitung von Rechnungen, Quittungen und anderen Geschäftsdokumenten.
  • Anpassung: Die Bibliothek ermöglicht die Anpassung der OCR-Einstellungen an spezifische Bedürfnisse, wie z.B. Einstellungen der Genauigkeit oder Verarbeitung unterschiedlicher Bildauflösungen.

Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass Sie Folgendes haben:

  • Visual Studio ist auf Ihrem Computer installiert.
  • Grundkenntnisse der C#-Programmierung.
  • IronOCR NuGet-Paket in Ihrem Projekt installiert.

Schritt 1: Erstellen Sie ein Visual Studio-Projekt

Öffnen Sie Visual Studio und klicken Sie auf Neues Projekt erstellen.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 1 - Neues Projekt

Wählen Sie in den Optionen die Konsole-App aus.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 2 - Konsole-App

Geben Sie den Projektnamen und den Pfad an.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 3 - Projektkonfiguration

Wählen Sie den .NET-Versionstyp.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 4 - Ziel-Framework

Schritt 2: Installieren Sie die IronOCR C#-Bibliothek

Gehen Sie in Ihrem Projekt in Visual Studio zu Extras > NuGet-Paket-Manager > NuGet-Pakete für die Lösung verwalten. Klicken Sie auf die Registerkarte Durchsuchen und suchen Sie nach IronOCR. Wählen Sie IronOCR und klicken Sie auf Installieren.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 5 - IronOCR

Eine weitere Option ist die Verwendung der Konsole und des unten stehenden Befehls.

dotnet add package IronOcr --version 2024.12.2

Schritt 3: Muster-Rechnungseingangsbild

Beispiel für ein digitales Rechnungsbild mit der Rechnungsnummer.

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 6 - Beispielinput

Schritt 4: Nutzen Sie Tesseract und extrahieren Sie Daten aus dem Rechnungsbild

Verwenden Sie nun den untenstehenden Code, um Daten aus einer Rechnung für die OCR-Rechnungsverarbeitung zu extrahieren.

using IronOcr;

// Set the license key
License.LicenseKey = "Your License";
string filePath = "sample1.jpg"; // Path to the invoice image

// Create an instance of IronTesseract
var ocr = new IronTesseract();

// Load the image for OCR
using (var ocrInput = new OcrInput())
{
    ocrInput.LoadImage(filePath);

    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise();

    // Perform OCR to extract text
    var ocrResult = ocr.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);

    // Next steps would involve processing the extracted text
}
using IronOcr;

// Set the license key
License.LicenseKey = "Your License";
string filePath = "sample1.jpg"; // Path to the invoice image

// Create an instance of IronTesseract
var ocr = new IronTesseract();

// Load the image for OCR
using (var ocrInput = new OcrInput())
{
    ocrInput.LoadImage(filePath);

    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise();

    // Perform OCR to extract text
    var ocrResult = ocr.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);

    // Next steps would involve processing the extracted text
}
Imports IronOcr

' Set the license key
License.LicenseKey = "Your License"
Dim filePath As String = "sample1.jpg" ' Path to the invoice image

' Create an instance of IronTesseract
Dim ocr = New IronTesseract()

' Load the image for OCR
Using ocrInput As New OcrInput()
	ocrInput.LoadImage(filePath)

	' Optionally apply filters if needed 
	ocrInput.Deskew()
	' ocrInput.DeNoise();

	' Perform OCR to extract text
	Dim ocrResult = ocr.Read(ocrInput)

	' Output the extracted text
	Console.WriteLine("Extracted Text:")
	Console.WriteLine(ocrResult.Text)

	' Next steps would involve processing the extracted text
End Using
$vbLabelText   $csharpLabel

Code-Erklärung

Der bereitgestellte Code demonstriert, wie die IronOCR-Bibliothek in C# verwendet wird, um Text aus einem Bild (z. B. einer Rechnung) unter Verwendung von OCR (optische Zeichenerkennung) zu extrahieren. Hier eine Erklärung zu jedem Teil des Codes:

  1. Lizenzschlüssel-Setup:

    • Der Code beginnt mit der Einstellung des Lizenzschlüssels für IronOCR. Dieser Schlüssel ist notwendig, um die volle Funktionalität der Bibliothek zu nutzen. Wenn Sie über eine gültige Lizenz verfügen, ersetzen Sie "Your License" durch Ihren tatsächlichen Lizenzschlüssel.
  2. Eingabedatei angeben:

    • Die Variable filePath enthält den Speicherort des Bildes, das die Rechnung enthält (in diesem Fall "sample1.jpg"). Dies ist die Datei, die für die Textextraktion verarbeitet wird.
  3. Erstellung einer OCR-Instanz:

    • Eine Instanz von IronTesseract wird erstellt. IronTesseract ist die Klasse, die für die Durchführung der OCR-Operation auf den Eingabedaten verantwortlich ist.
  4. Laden des Bildes:

    • Der Code erstellt ein OcrInput-Objekt, das das Bild, das durch filePath angegeben ist, mit der Methode LoadImage lädt.
  5. Anwendung von Bildfiltern:

    • Der Code wendet optional Filter wie Deskew() an, um schräg gestellte Bilder zu korrigieren und die OCR-Genauigkeit zu verbessern.
  6. Durchführung der OCR:

    • Die Methode ocr.Read() extrahiert Text aus dem geladenen Bild und gibt ein OcrResult zurück, das den extrahierten Text enthält.
  7. Anzeigen des extrahierten Textes:
    • Der extrahierte Text wird auf der Konsole ausgegeben. Dieser Text ist das, was IronOCR aus dem Bild erkannt hat und kann weiterverarbeitet werden.

Ausgabe

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 7 - OCR-Ausgabe mit Rechnungsnummer

Schritt 5: Lesen Sie nur einen Bereich eines Bildes

Um die Effizienz zu steigern, kann nur ein Teil des Bildes zur Extraktion verarbeitet werden.

using IronOcr;
using IronSoftware.Drawing;

// Set the license key
License.LicenseKey = "Your Key";
string filePath = "sample1.jpg"; // Path to the invoice image

// Create an instance of IronTesseract
var ocr = new IronTesseract();

// Load the image for OCR
using (var ocrInput = new OcrInput())
{
    // Define the region of interest
    var ContentArea = new Rectangle(x: 0, y: 0, width: 1000, height: 250);
    ocrInput.LoadImage(filePath, ContentArea);

    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise();

    // Perform OCR to extract text
    var ocrResult = ocr.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using IronSoftware.Drawing;

// Set the license key
License.LicenseKey = "Your Key";
string filePath = "sample1.jpg"; // Path to the invoice image

// Create an instance of IronTesseract
var ocr = new IronTesseract();

// Load the image for OCR
using (var ocrInput = new OcrInput())
{
    // Define the region of interest
    var ContentArea = new Rectangle(x: 0, y: 0, width: 1000, height: 250);
    ocrInput.LoadImage(filePath, ContentArea);

    // Optionally apply filters if needed 
    ocrInput.Deskew();
    // ocrInput.DeNoise();

    // Perform OCR to extract text
    var ocrResult = ocr.Read(ocrInput);

    // Output the extracted text
    Console.WriteLine("Extracted Text:");
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports IronSoftware.Drawing

' Set the license key
License.LicenseKey = "Your Key"
Dim filePath As String = "sample1.jpg" ' Path to the invoice image

' Create an instance of IronTesseract
Dim ocr = New IronTesseract()

' Load the image for OCR
Using ocrInput As New OcrInput()
	' Define the region of interest
	Dim ContentArea = New Rectangle(x:= 0, y:= 0, width:= 1000, height:= 250)
	ocrInput.LoadImage(filePath, ContentArea)

	' Optionally apply filters if needed 
	ocrInput.Deskew()
	' ocrInput.DeNoise();

	' Perform OCR to extract text
	Dim ocrResult = ocr.Read(ocrInput)

	' Output the extracted text
	Console.WriteLine("Extracted Text:")
	Console.WriteLine(ocrResult.Text)
End Using
$vbLabelText   $csharpLabel

Code-Erklärung

Dieser Code extrahiert Text aus einem bestimmten Bereich eines Bildes unter Verwendung von IronOCR mit Optionen für Bildfilter, die die Genauigkeit verbessern. Hier eine Aufteilung jedes Teils:

  1. Lizenz-Setup:

    • Setzt den Lizenzschlüssel für IronOCR, der notwendig ist, um die OCR-Funktionen der Bibliothek zu verwenden. Ersetzen Sie "Your Key" durch Ihren gültigen Lizenzschlüssel.
  2. Definition des Bilddateipfads:

    • Gibt den Dateipfad zum Rechnungsbild an, das verarbeitet werden soll, und das die Inhalte für die Textextraktion enthält.
  3. Erstellung einer OCR-Instanz:

    • Eine Instanz von IronTesseract wird erstellt, um die OCR-Operationen durchzuführen.
  4. Definition des zu verarbeitenden Bereichs:

    • Gibt einen rechteckigen Bereich innerhalb des Bildes an (beginnend an der oberen linken Ecke), um den OCR-Prozess auf einen relevanten Abschnitt zu konzentrieren und die Effizienz zu verbessern.
  5. Laden des Bildes:

    • Lädt den angegebenen Inhaltsbereich des Bildes aus der Datei. Dies beschränkt die OCR-Verarbeitung auf einen bestimmten Teil des Bildes.
  6. Anwendung von Filtern:

    • Wendet Filter wie Deskew() an, um die Bildausrichtung zu verbessern, und möglicherweise DeNoise(), um das Bild zu bereinigen und die OCR-Genauigkeit zu steigern.
  7. Extraktion des Textes:

    • Liest den Text aus dem definierten Bereich und speichert ihn in einem OcrResult.
  8. Ausgabe des extrahierten Textes:
    • Gibt den OCR-verarbeiteten Text zur weiteren Verwendung auf der Konsole aus.

Ausgabe

OCR-Rechnungsverarbeitung in C# (Entwickler-Tutorial): Abbildung 8 - Extrahierte Ausgabe

Lizenz (Testversion verfügbar)

IronOCR erfordert einen Schlüssel, um Daten aus Rechnungen zu extrahieren. Erhalten Sie Ihren Entwickler-Testschlüssel von der Lizenzseite.

using IronOcr; 
License.LicenseKey = "Your Key";
using IronOcr; 
License.LicenseKey = "Your Key";
Imports IronOcr
License.LicenseKey = "Your Key"
$vbLabelText   $csharpLabel

Abschluss

Dieser Artikel lieferte ein einfaches Beispiel, wie man mit IronOCR für die Rechnungsverarbeitung beginnt. Sie können diesen Code weiter anpassen und erweitern, um ihn an Ihre spezifischen Anforderungen anzupassen.

IronOCR bietet eine effiziente und einfach zu integrierende Lösung zur Textextraktion aus Bildern und PDFs, was es ideal für die Rechnungsverarbeitung macht. Durch die Kombination von IronOCR mit C#-String-Manipulation oder regulären Ausdrücken können Sie schnell wichtige Daten aus Rechnungen verarbeiten und extrahieren.

Dies ist ein einfaches Beispiel für die Rechnungsverarbeitung, und mit fortgeschritteneren Konfigurationen (wie Spracherkennung, mehrseitige PDF-Verarbeitung, etc.) können Sie die OCR-Ergebnisse feintunen, um die Genauigkeit für Ihren spezifischen Anwendungsfall zu verbessern.

Die API von IronOCR ist flexibel und kann für eine Vielzahl von OCR-Aufgaben über die Rechnungsverarbeitung hinaus eingesetzt werden, einschließlich Belegscannen, Dokumenten-Konvertierung und automatisierter Dateneingabe.

Häufig gestellte Fragen

Wie kann ich die Rechnungsdatenverarbeitung in C# automatisieren?

Sie können die Rechnungsdatenverarbeitung in C# automatisieren, indem Sie IronOCR verwenden, um Text und Daten aus digitalen Rechnungsdateien zu extrahieren. Dies reduziert manuelle Dateneingabefehler und verbessert die Effizienz bei der Bearbeitung von Rechnungen.

Welche Schritte sind bei der Einrichtung von OCR für die Rechnungsverarbeitung erforderlich?

Um OCR für die Rechnungsverarbeitung einzurichten, erstellen Sie zunächst ein Visual-Studio-Projekt, installieren Sie die IronOCR-Bibliothek und verwenden Sie Beispielrechnungsauszüge. Sie können dann die Funktionen von IronOCR nutzen, um Rechnungsdaten zu extrahieren und zu verarbeiten.

Wie extrahiere ich Daten aus bestimmten Regionen einer Rechnung mit OCR?

IronOCR ermöglicht es Ihnen, spezifische Bereiche eines Bildes zu definieren, indem Sie ein Rechtecksfeld setzen, um den OCR-Prozess zu fokussieren. Diese Funktion verbessert die Effizienz und Genauigkeit, indem sie sich nur auf die notwendigen Teile einer Rechnung konzentriert.

Welche Rolle spielt Tesseract in IronOCR?

Tesseract ist ein Teil von IronOCR und spielt eine entscheidende Rolle bei der Extraktion von Texten aus Bildern. Es hilft dabei, Textbilder in maschinenlesbare Daten zu konvertieren, was für die Automatisierung der Rechnungsverarbeitung in C#-Anwendungen unerlässlich ist.

Kann OCR-Software Text in mehreren Sprachen erkennen?

Ja, IronOCR unterstützt mehrere Sprachen, wodurch es in der Lage ist, Text in verschiedenen Sprachen, wie Englisch, Spanisch und Französisch, zu erkennen und zu verarbeiten, was seine Vielseitigkeit im Umgang mit globalen Rechnungen verbessert.

Welche Vorteile bietet die Nutzung von IronOCR für die Rechnungsverarbeitung?

Die Verwendung von IronOCR für die Rechnungsverarbeitung bietet Vorteile wie hohe Genauigkeit bei der Textextraktion, Unterstützung mehrerer Sprachen, Barcode-Erkennung und PDF-Verarbeitungsmöglichkeiten, die alle zur Optimierung der Workflows bei Verbindlichkeiten beitragen.

Wie kann ich OCR-Einstellungen für spezielle Rechnungsverarbeitungsanforderungen anpassen?

IronOCR bietet eine einfache API, mit der Entwickler OCR-Einstellungen anpassen können. Diese Flexibilität ermöglicht maßgeschneiderte Lösungen für bestimmte Rechnungsverarbeitungsanforderungen, wie die Verarbeitung verschiedener Rechnungsformate oder -sprachen.

Welche Bedeutung hat OCR in der digitalen Rechnungsverwaltung?

OCR ist entscheidend in der digitalen Rechnungsverwaltung, da es die Extraktion von Daten aus Rechnungen automatisiert, die manuelle Arbeitsbelastung reduziert, Fehler minimiert und eine effiziente und genaue Bearbeitung von Finanztransaktionen sicherstellt.

Gibt es eine Testversion zum Testen der IronOCR-Funktionen?

Ja, IronOCR bietet einen Entwickler-Testschlüssel, den Sie von deren Lizenzierungsseite erhalten können, sodass Sie die volle Funktionalität der Software vor dem Kauf testen können.

Wie verbessert IronOCR die Dokumentkonvertierung und die Automatisierung der Dateneingabe?

IronOCR verbessert die Dokumentkonvertierung und die Automatisierung der Dateneingabe durch eine hochgenaue Textextraktion aus verschiedenen Formaten und ermöglicht eine nahtlose Integration in C#-Anwendungen für die automatisierte Datenverarbeitung.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen