Zum Fußzeileninhalt springen
VERWENDUNG VON IRONOCR

Rechnungs-OCR-API (Entwickler-Tutorial)

Die Rechnung OCR API nutzt maschinelles Lernen und Computer Vision, um Rechnungsdaten in ein Format für die automatisierte Verarbeitung umzuwandeln. Diese Technologie behebt manuelle Dateneingabeprobleme wie Verzögerungen, Kosten und Fehler, indem sie Details wie Lieferanteninformationen, Rechnungsnummern und Preise aus digitalen und gescannten Rechnungen genau extrahiert.

Dieser Artikel wird eine erstklassige Rechnung OCR API namens IronOCR verwenden.

class="hsg-featured-snippet">

Wie man eine Rechnung OCR API erstellt

  1. Die Rechnung OCR API herunterladen und installieren
  2. Erstellen Sie ein neues C#-Projekt in Visual Studio oder öffnen Sie ein vorhandenes.
  3. Laden Sie eine vorhandene Bilddatei mit der OcrInput-Methode
  4. Extrahieren Sie den Text aus dem Bild mit der Methode Ocr.Read.
  5. Geben Sie den extrahierten Text mit Console.WriteLine in der Konsole aus

1. IronOCR

IronOCR, entwickelt von Iron Software, ist eine OCR-Bibliothek, die Entwicklern eine Vielzahl von Werkzeugen bietet. Es nutzt maschinelles Lernen und Computer Vision, um Text aus gescannten Dokumenten, Bildern und PDFs zu extrahieren, wodurch eine automatisierte Verarbeitung ermöglicht wird. Seine APIs integrieren sich in verschiedene Sprachen und Plattformen, reduzieren Fehler bei der manuellen Dateneingabe und verbessern die Effizienz. Extrahierte Daten können analysiert und in vorhandene Systeme integriert werden, was die Entscheidungsfindung und Produktivität unterstützt. Features like image preprocessing, barcode recognition, and file parsing increase its versatility. IronOCR ermöglicht es Entwicklern, Texterkennung in ihre Anwendungen zu integrieren.

2. Voraussetzungen

Bevor Sie mit IronOCR arbeiten können, müssen einige Voraussetzungen erfüllt sein. Diese Voraussetzungen umfassen:

  1. Stellen Sie sicher, dass Sie eine geeignete Entwicklungsumgebung auf Ihrem Computer eingerichtet haben. Dazu muss in der Regel eine integrierte Entwicklungsumgebung (IDE) wie Visual Studio installiert sein.
  2. Ein Grundverständnis der Programmiersprache C# ist wichtig. Dies ermöglicht es Ihnen, die im Artikel enthaltenen Codebeispiele zu verstehen und effektiv zu ändern.
  3. Sie müssen die IronOCR-Bibliothek in Ihrem Projekt installiert haben. Dies kann über den NuGet Package Manager in Visual Studio oder über die Befehlszeilenschnittstelle erfolgen.

Wenn Sie sicherstellen, dass diese Voraussetzungen erfüllt sind, sind Sie bereit, in die Arbeit mit IronOCR einzusteigen.

3. Erstellen eines neuen Visual Studio-Projekts

Um mit IronOCR zu beginnen, müssen Sie zunächst ein neues Visual Studio-Projekt erstellen.

Öffnen Sie Visual Studio und gehen Sie zu Dateien, klicken Sie dann auf Neu und dann auf Projekt.

Rechnung OCR API (Entwickler Tutorial): Abbildung 1 - Neues Projekt Neues Projekt

Wählen Sie in dem neuen Fenster die Option Konsolenanwendung und klicken Sie auf Weiter.

Rechnung OCR API (Entwickler Tutorial): Abbildung 2 - Konsolenanwendung Konsolenanwendung

Ein neues Fenster erscheint, schreiben Sie den Namen Ihres neuen Projekts und den Speicherort und klicken Sie auf Weiter.

Rechnung OCR API (Entwickler Tutorial): Abbildung 3 - Projektkonfiguration Projektkonfiguration

Geben Sie schließlich das Ziel-Framework an und klicken Sie auf Erstellen.

Rechnung OCR API (Entwickler Tutorial): Abbildung 4 - Ziel-Framework Ziel-Framework

Jetzt ist Ihr neues Visual Studio-Projekt erstellt. Lassen Sie uns IronOCR installieren.

4. Installation von IronOCR

Es gibt mehrere Möglichkeiten, die IronOCR-Bibliothek herunterzuladen und zu installieren. Aber hier sind die zwei einfachsten Ansätze.

  1. Verwendung des Visual Studio NuGet-Paketmanagers
  2. Verwendung der Visual Studio-Befehlszeile

4.1. Verwendung des Visual Studio NuGet-Paketmanagers

IronOCR kann mit Hilfe des Visual Studio NuGet Package Managers in ein C#-Projekt eingebunden werden.

Navigieren Sie zur grafischen Benutzeroberfläche von NuGet Package Manager, indem Sie Tools > NuGet-Paket-Manager > Manage NuGet Packages for Solution wählen

Rechnung OCR API (Entwickler Tutorial): Abbildung 5 - NuGet-Paket-Manager NuGet-Paket-Manager

Danach wird ein neues Fenster angezeigt. Suchen Sie nach IronOCR und installieren Sie das Paket in Ihrem Projekt.

Rechnung OCR API (Entwickler Tutorial): Abbildung 6 - IronOCR-Paket im NuGet-Paket-Manager UI auswählen IronOCR-Paket im NuGet-Paket-Manager UI auswählen

Zusätzliche Sprachpakete für IronOCR können ebenfalls mit der oben beschriebenen Methode installiert werden.

4.2. Verwendung der Visual Studio-Befehlszeile

  1. In Visual Studio, go to Tools > NuGet-Paket-Manager > Paket-Manager-Konsole
  2. Geben Sie die folgende Zeile in die Registerkarte Paket-Manager-Konsole ein, um IronOCR zu installieren:

    Install-Package IronOcr

Rechnung OCR API (Entwickler Tutorial): Abbildung 7 - Paket-Manager-Konsole Paket-Manager-Konsole

Das Paket wird nun im aktuellen Projekt heruntergeladen/installiert und ist einsatzbereit.

5. Datenextraktion aus Rechnungen mit IronOCR

Mit IronOCR können Sie einfach Daten aus Rechnungen mit nur wenigen Zeilen Code extrahieren und diese Datenauszüge für weitere Prozesse wie Dateneingabe verwenden. Dies wird die manuelle Dateneingabe und vieles mehr ersetzen.

Hier ist ein Beispiel für eine Rechnung, um Text daraus zu extrahieren.

Rechnung OCR API (Entwickler Tutorial): Abbildung 8 - Die Beispielrechnung Die Musterrechnung

Jetzt schreiben wir den Code, um alle Daten aus dieser Rechnung zu extrahieren.

using IronOcr;
using System;

// Initialize a new instance of the IronTesseract class
var ocr = new IronTesseract();

// Use the OcrInput object to load the image file
using (var input = new OcrInput(@"r2.png"))
{
    // Read the image using the Read method, which performs OCR
    var result = ocr.Read(input);

    // Output the extracted text to the console
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;

// Initialize a new instance of the IronTesseract class
var ocr = new IronTesseract();

// Use the OcrInput object to load the image file
using (var input = new OcrInput(@"r2.png"))
{
    // Read the image using the Read method, which performs OCR
    var result = ocr.Read(input);

    // Output the extracted text to the console
    Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System

' Initialize a new instance of the IronTesseract class
Private ocr = New IronTesseract()

' Use the OcrInput object to load the image file
Using input = New OcrInput("r2.png")
	' Read the image using the Read method, which performs OCR
	Dim result = ocr.Read(input)

	' Output the extracted text to the console
	Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

The above code gets input in the form of an image and then extracts data from that image using a Read method from the IronTesseract class.

Rechnung OCR API (Entwickler Tutorial): Abbildung 9 - Rechnung Parser Rechnung Parser

5.1. Rechnungsverarbeitung zur Extraktion spezifischer Daten aus Rechnungen

Sie können auch spezifische Daten aus Rechnungen wie Kundennummern extrahieren. Unten ist der Code, um die Kundennummer aus der Rechnung zu extrahieren.

using IronOcr;
using System;
using System.Text.RegularExpressions;

// Initialize a new instance of the IronTesseract class
var ocr = new IronTesseract();

// Use the OcrInput object to load the image file
using (var input = new OcrInput(@"r2.png"))
{
    // Perform OCR on the image
    var result = ocr.Read(input);

    // Define a regular expression pattern for the invoice number
    var linePattern = @"INV\/\d{4}\/\d{5}";

    // Match the pattern in the extracted text
    var lineMatch = Regex.Match(result.Text, linePattern);

    // Check if the pattern matches any part of the text
    if (lineMatch.Success)
    {
        // If a match is found, print the invoice number
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }
}
using IronOcr;
using System;
using System.Text.RegularExpressions;

// Initialize a new instance of the IronTesseract class
var ocr = new IronTesseract();

// Use the OcrInput object to load the image file
using (var input = new OcrInput(@"r2.png"))
{
    // Perform OCR on the image
    var result = ocr.Read(input);

    // Define a regular expression pattern for the invoice number
    var linePattern = @"INV\/\d{4}\/\d{5}";

    // Match the pattern in the extracted text
    var lineMatch = Regex.Match(result.Text, linePattern);

    // Check if the pattern matches any part of the text
    if (lineMatch.Success)
    {
        // If a match is found, print the invoice number
        var lineValue = lineMatch.Value;
        Console.WriteLine("Customer Invoice number: " + lineValue);
    }
}
Imports IronOcr
Imports System
Imports System.Text.RegularExpressions

' Initialize a new instance of the IronTesseract class
Private ocr = New IronTesseract()

' Use the OcrInput object to load the image file
Using input = New OcrInput("r2.png")
	' Perform OCR on the image
	Dim result = ocr.Read(input)

	' Define a regular expression pattern for the invoice number
	Dim linePattern = "INV\/\d{4}\/\d{5}"

	' Match the pattern in the extracted text
	Dim lineMatch = Regex.Match(result.Text, linePattern)

	' Check if the pattern matches any part of the text
	If lineMatch.Success Then
		' If a match is found, print the invoice number
		Dim lineValue = lineMatch.Value
		Console.WriteLine("Customer Invoice number: " & lineValue)
	End If
End Using
$vbLabelText   $csharpLabel

Rechnung OCR API (Entwickler Tutorial): Abbildung 10 - Rechnung Scanning Rechnung Scanning

6. Fazit

Die Invoice OCR API von IronOCR revolutioniert die Datenextraktion aus Rechnungen mit Hilfe von maschinellem Lernen und Computer Vision. Diese Technologie wandelt Rechnungstext und -nummern in ein maschinenlesbares Format um, was die Datenextraktion für Analysen, Integration und Prozessverbesserung vereinfacht. Es bietet eine robuste Lösung zur Automatisierung der Rechnungsverarbeitung, Verbesserung der Genauigkeit und Optimierung von Arbeitsabläufen wie Kreditorenbuchhaltung. Automatisierte Dateneingabe aus gescannten Rechnungen ist mit dieser Technologie ebenfalls möglich.

IronOCR bietet hohe Genauigkeit unter Verwendung der besten Ergebnisse von Tesseract, ohne zusätzliche Einstellungen. It supports multipage frame TIFF, PDF files, and all popular image formats. Es ist auch möglich, Barcode-Werte aus Bildern zu lesen.

Bitte besuchen Sie die Startseite für weitere Informationen zu IronOCR. Für weitere Tutorials zur Rechnung OCR besuchen Sie bitte dieses ausführliche Rechnung OCR-Tutorial. Um zu erfahren, wie man Computer Vision verwendet, um Text wie Rechnungsfelder zu finden, besuchen Sie dieses Computer Vision How-to.

Häufig gestellte Fragen

Wie kann ich die Rechnungsdatenverarbeitung mit OCR automatisieren?

Sie können IronOCR verwenden, um die Rechnungsdatenverarbeitung zu automatisieren, indem Sie seine maschinellen Lernalgorithmen nutzen. IronOCR extrahiert Details wie Lieferanteninformationen, Rechnungsnummern und Preise aus digitalen und gescannten Rechnungen, wodurch manuelle Eingabefehler reduziert und die Effizienz gesteigert wird.

Welche Schritte sind bei der Einrichtung einer Rechnungs-OCR-API beteiligt?

Um eine Rechnungs-OCR-API mit IronOCR einzurichten, beginnen Sie mit dem Herunterladen und Installieren der Bibliothek über den NuGet Package Manager von Visual Studio. Erstellen Sie anschließend ein neues C#-Projekt, integrieren Sie IronOCR und verwenden Sie seine Methoden, um Bilddateien zu laden und zu lesen, um Text zu extrahieren.

Kann IronOCR spezifische Daten wie Rechnungsnummern extrahieren?

Ja, IronOCR kann spezifische Daten wie Rechnungsnummern extrahieren. Es nutzt reguläre Ausdrücke, um Muster im extrahierten Text zu erkennen, sodass Sie spezifische Informationen aus Rechnungen entnehmen können.

Welche Merkmale von IronOCR sind vorteilhaft für die Rechnungsverarbeitung?

IronOCR umfasst Funktionen wie Bildvorverarbeitung, Barcode-Erkennung und Dateiparsing. Diese verbessern seine Fähigkeit, Text aus verschiedenen Rechnungsformaten genau zu extrahieren und zu verarbeiten, was die Datenerfassung und Workflow-Effizienz steigert.

Wie kann die Bildvorverarbeitung die OCR-Ergebnisse verbessern?

Die Bildvorverarbeitung in IronOCR hilft, OCR-Ergebnisse zu verbessern, indem die Bildqualität vor der Textextraktion optimiert wird. Dies beinhaltet Vorgänge wie Kontrasteinstellung und Rauschunterdrückung, die zu einer genaueren Datenerfassung aus Rechnungen führen können.

Ist es möglich, IronOCR für sowohl digitale als auch gescannte Rechnungen zu verwenden?

Ja, IronOCR ist in der Lage, sowohl digitale als auch gescannte Rechnungen zu verarbeiten. Es verwendet fortschrittliche maschinelle Lern- und Computervisionstechniken, um Text aus verschiedenen Formaten und Bildqualitäten genau zu extrahieren.

Wie geht IronOCR mit verschiedenen Seitenformaten und Dateitypen um?

IronOCR unterstützt mehrere Seitenformate und beliebte Bild- und PDF-Dateitypen. Es kann effizient Text aus komplexen Dokumenten extrahieren, was es vielseitig für verschiedene Rechnungsverarbeitungsanwendungen macht.

Wo finden Entwickler Tutorials zur Verwendung von IronOCR?

Entwickler können Tutorials und zusätzliche Ressourcen auf der IronOCR-Website finden. Die Seite bietet eine Vielzahl an Lernmaterialien, einschließlich Anleitungen und Blogbeiträge zur Anwendung von IronOCR in unterschiedlichen Szenarien.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen