Zum Fußzeileninhalt springen
VERWENDUNG VON IRONOCR
HTML zu PDF: Ein schnelles Tutorial für C# .NET

Tabellendaten aus gescannten Bildern mit IronOCR extrahieren: Live-Demo-Zusammenfassung

Das Extrahieren von Daten aus gescannten Bildern ist eine häufige Herausforderung, insbesondere wenn es sich um strukturierte Daten wie Tabellen handelt. Mit den fortschrittlichen maschinellen Lernfähigkeiten von IronOCR können Sie jetzt nahtlos Tabellendaten, einschließlich Zellwerte und deren Positionen, extrahieren. In dieser Demo führt Shadman Majid, Software Sales Engineer, Schritt für Schritt durch die Codeimplementierung, während Anne Lazarakis, Sales and Marketing Director, reale Anwendungsfälle von Iron Software Kunden teilt.

Reale Anwendungsfälle

Ironocr Extract Table Data 4 related to Reale Anwendungsfälle

Erklärt von Anne Lazarakis, Sales and Marketing Director*

Versicherungsantragsbearbeitung (Opyn Market)

In der stark regulierten Krankenversicherungsbranche in den USA erhalten Unternehmen wie Opyn Market immer noch viele Dokumente per Fax. Diese gescannten Dokumente enthalten oft tabellarische Daten, die exakt extrahiert und in interne Systeme eingegeben werden müssen. Mit IronOCR können sie diesen Prozess automatisieren, was die manuelle Arbeit reduziert und die Möglichkeit menschlichen Fehlers eliminiert.

Logistik & Lebensmittelverteilung (iPAP)

iPAP, der größte Käsehändler in den USA, nutzt IronOCR, um über 200 Kundenaufträge zu verwalten. Ihre Rechnungen kommen in verschiedenen Formaten mit uneinheitlichen Tabellendesigns. IronOCR hilft ihnen, Bestellnummern, Versanddaten und Artikeldetails effizient aus gescannten Dokumenten zu extrahieren, selbst bei variierendem Format. Diese Automatisierung hat ihnen jährlich zwischen 40.000 und 45.000 Dollar gespart.

Ironocr Extract Table Data 2 related to Logistik & Lebensmittelverteilung (iPAP)


Technische Übersicht

Ironocr Extract Table Data 5 related to Technische Übersicht

Live-Coding-Sitzung mit Shadman Majid, Software Sales Engineer*

IronOCR verwendet proprietäre maschinelle Lernmodelle, um Tabellendaten aus gescannten Dokumenten zu erkennen und zu extrahieren. Diese Funktion unterstützt:

  • Extraktion von Tabellenzellen und Koordinaten
  • OCR von gescannten Bildern und mehrseitigen PDFs
  • Kompatibilität mit C#, VB.NET, .NET Standard, .NET Framework und .NET Core

Ironocr Extract Table Data 3 related to Technische Übersicht

Um auf diese Funktionalität zuzugreifen, benötigen Sie:

Diese Pakete enthalten die trainierten ML-Modelle, die für die Erkennung der Tabellenstruktur und ein genaues OCR erforderlich sind.

Beispielcode zum Extrahieren von Tabellen

Unten finden Sie ein Beispiel für einen C#-Code, der zeigt, wie IronOCR zur Extraktion von Tabellendaten aus Bildern verwendet wird:

// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
// Import the necessary IronOCR namespaces
using IronOcr;

// Initialize the IronTesseract to handle OCR processes
var Ocr = new IronTesseract();

// Load the image containing the table
using (var input = new OcrInput("invoice.jpg"))
{
    // Perform OCR and extract text data including tables
    var result = Ocr.Read(input);

    // Iterate through each page in the document
    foreach (var page in result.Pages)
    {
        // Iterate through each table found on the page
        foreach (var table in page.Tables)
        {
            Console.WriteLine("Table found:");
            // Iterate through each row in the table
            foreach (var row in table.Rows)
            {
                // Convert the row of cells to a comma-separated string
                var cells = string.Join(", ", row.Cells.Select(cell => cell.Text));
                Console.WriteLine(cells);
            }
        }
    }
}
' Import the necessary IronOCR namespaces
Imports IronOcr

' Initialize the IronTesseract to handle OCR processes
Private Ocr = New IronTesseract()

' Load the image containing the table
Using input = New OcrInput("invoice.jpg")
	' Perform OCR and extract text data including tables
	Dim result = Ocr.Read(input)

	' Iterate through each page in the document
	For Each page In result.Pages
		' Iterate through each table found on the page
		For Each table In page.Tables
			Console.WriteLine("Table found:")
			' Iterate through each row in the table
			For Each row In table.Rows
				' Convert the row of cells to a comma-separated string
				Dim cells = String.Join(", ", row.Cells.Select(Function(cell) cell.Text))
				Console.WriteLine(cells)
			Next row
		Next table
	Next page
End Using
$vbLabelText   $csharpLabel
  • Bild laden: Das Skript beginnt mit der Initialisierung des IronTesseract-Engines und dem Laden einer Bilddatei namens invoice.jpg, die verarbeitet werden soll.
  • Ausführung der OCR: Es führt OCR an der Eingabe durch, um Textdaten zu extrahieren, insbesondere um Tabellen zu fokussieren.
  • Tabellenextraktion: Das Skript iteriert durch jede erkannte Tabelle und deren Zeilen und gibt die Zellinhalte strukturiert aus.

Stellen Sie sicher, dass Sie die erforderlichen NuGet-Pakete für IronOCR installiert haben, bevor Sie dieses Skript ausführen.


Fazit

IronOCR macht es einfach, die Extraktion komplexer Tabellendaten aus gescannten Dokumenten zu automatisieren. Egal, ob Sie im Gesundheitswesen, in der Logistik, im Finanzwesen oder in der Herstellung tätig sind, diese Lösung bietet Zuverlässigkeit, Genauigkeit und kostensparende Effizienz. Mit nur wenigen Codezeilen können Sie die manuelle Dateneingabe beseitigen und menschliche Fehler reduzieren.

Möchten Sie es in Aktion sehen? Buchen Sie eine Live-Demo mit einem unserer Ingenieure hier.

Häufig gestellte Fragen

Wie kann ich Tabellendaten aus gescannten Bildern mit C# extrahieren?

Sie können die fortschrittlichen maschinellen Lernfähigkeiten von IronOCR nutzen, um Tabellendaten aus gescannten Bildern zu extrahieren. Der Prozess umfasst die Verwendung der IronTesseract-Engine, um OCR auf dem Bild durchzuführen und Informationen, einschließlich Zellwerte und deren Koordinaten, zu extrahieren.

Welche realen Anwendungen gibt es für die Extraktion von Tabellendaten aus gescannten Dokumenten?

Reale Anwendungen umfassen die Automatisierung der Verarbeitung von Versicherungsansprüchen durch Extraktion tabellarischer Daten aus gefaxten Dokumenten und die Verwaltung von Kundenbestellungen in der Logistik, wobei Rechnungen in verschiedenen Formaten mit inkonsistenten Tabellenlayouts vorliegen, wie dies bei Unternehmen wie Opyn Market und iPAP demonstriert wird.

Welche technischen Fähigkeiten bietet IronOCR für die Extraktion von Tabellendaten?

IronOCR bietet Funktionen wie die Extraktion von Zellinhalten und Koordinaten, OCR gescannter Bilder und mehrseitiger PDFs sowie Kompatibilität mit C#, VB.NET, .NET Standard, .NET Framework und .NET Core.

Welche Schritte sind im Code zur Extraktion von Tabellendaten mit IronOCR enthalten?

Der Prozess umfasst die Initialisierung der IronTesseract-Engine, das Laden des Bildes, die Durchführung von OCR zur Extraktion von Textdaten und das Durchlaufen jeder erkannten Tabelle und deren Zeilen, um die Zellinhalte auszugeben.

Welche Pakete sind für die Extraktion von Tabellendaten mit IronOCR erforderlich?

Sie benötigen das IronOCR NuGet-Paket sowie das IronOcr.Extensions.AdvancedScanning-Paket, um die trainierten ML-Modelle für die Tabellenerkennung und genaue OCR zu nutzen.

Wie steigert IronOCR die Effizienz in der Gesundheits- und Logistikbranche?

IronOCR reduziert den manuellen Aufwand und menschliche Fehler, indem es die Extraktion komplexer Tabellendaten aus gescannten Dokumenten automatisiert und so erhebliche Effizienz und Kosteneinsparungen für Branchen wie Gesundheitswesen und Logistik bietet.

Kann ich eine Live-Demonstration der Fähigkeiten von IronOCR sehen?

Ja, Sie können eine Live-Demo mit einem der Ingenieure von Iron Software buchen, um IronOCR in Aktion zu sehen und mehr über seine Fähigkeiten zur Extraktion von Tabellendaten zu erfahren.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen