Zum Fußzeileninhalt springen
VERWENDUNG VON IRONOCR

PDF Datenextraktion .NET: Vollständiges Entwicklerhandbuch

PDF-Dokumente sind überall in Unternehmen; moderne Beispiele sind Rechnungen, Berichte, Verträge und Handbücher. Aber es kann schwierig sein, die wichtigen Informationen daraus programmatisch zu extrahieren. PDFs konzentrieren sich auf das Aussehen, nicht auf den Datenzugriff.

Für .NET-Entwickler ist IronPDF eine leistungsstarke .NET-PDF-Bibliothek, die das Extrahieren von Daten aus PDF-Dateien erleichtert. Sie können Text, Tabellen, Formularfelder, Bilder und Anhänge direkt aus Eingabe-PDF-Dokumenten abrufen. Ob Sie die Rechnungsverarbeitung automatisieren, eine Wissensdatenbank aufbauen oder Berichte erstellen, diese Bibliothek spart viel Zeit.

Diese Anleitung führt Sie durch praktische Beispiele zur Extraktion von Textinhalten, tabellarischen Daten und Formularfeldwerten, mit Erklärungen nach jedem Codeausschnitt, sodass Sie sie an Ihre eigenen Projekte anpassen können.

Einstieg mit IronPDF

Die Installation von IronPDF dauert Sekunden über den NuGet-Paket-Manager. Öffnen Sie Ihre Package Manager Console und führen Sie aus:

Install-Package IronPDF
Install-Package IronPDF
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronPDF
$vbLabelText   $csharpLabel

Sobald installiert, können Sie sofort mit der Verarbeitung von Eingabe-PDF-Dokumenten beginnen. Hier ist ein minimales .NET-Beispiel, das die Einfachheit der IronPDF-API demonstriert:

using IronPdf;
// Load any PDF document
var pdf = PdfDocument.FromFile("document.pdf");
// Extract all text with one line
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
// Load any PDF document
var pdf = PdfDocument.FromFile("document.pdf");
// Extract all text with one line
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Dieser Code lädt eine PDF-Datei und extrahiert jeden einzelnen Text. IronPDF handhabt automatisch komplexe PDF-Strukturen, Formulardaten und Kodierungen, die normalerweise bei anderen Bibliotheken Probleme verursachen. Die extrahierten Daten aus PDF-Dokumenten können in einer Textdatei gespeichert oder weiter zur Analyse verarbeitet werden.

Praktischer Tipp: Sie können den extrahierten Text in einer .txt-Datei speichern, um ihn später weiterzuverarbeiten, oder ihn parsen, um Datenbanken, Excel-Tabellen oder Wissensdatenbanken zu füllen. Diese Methode eignet sich gut für Berichte, Verträge oder jedes PDF, bei dem Sie nur schnell den Rohtext benötigen.

Extrahierter Textausgabe

PDF Data Extraction .NET: Vollständiges Entwicklerhandbuch: Bild 1 - Beispiel-PDF und der extrahierte Text

Daten aus PDF-Dokumenten extrahieren

Anwendungen aus der realen Welt erfordern oft präzise Datenextraktion. IronPDF bietet mehrere Methoden, um wertvolle Informationen von bestimmten Seiten innerhalb eines PDFs zu extrahieren. Für dieses Beispiel verwenden wir das folgende PDF:

PDF Data Extraction .NET: Vollständiges Entwicklerhandbuch: Bild 2 - Bild 2 von 6 zu PDF Datenextraktion .NET: Vollständiger Leitfaden für Entwickler

Der folgende Code wird Daten aus bestimmten Seiten innerhalb dieses PDFs extrahieren und die Ergebnisse an unsere Konsole zurückgeben.

using IronPdf;
using System;
using System.Text.RegularExpressions;
// Load any PDF document
var pdf = PdfDocument.FromFile("AnnualReport2024.pdf");
// Extract from selected pages
int[] pagesToExtract = { 0, 2, 4 }; // Pages 1, 3, and 5
foreach (var pageIndex in pagesToExtract)
{
    string pageText = pdf.ExtractTextFromPage(pageIndex);
    // Split on 2 or more spaces (tables often flatten into space-separated values)
    var tokens = Regex.Split(pageText, @"\s{2,}");
    foreach (string token in tokens)
    {
        // Match totals, invoice headers, and invoice rows
        if (token.Contains("Invoice") || token.Contains("Total") || token.StartsWith("INV-"))
        {
            Console.WriteLine($"Important: {token.Trim()}");
        }
    }
}
using IronPdf;
using System;
using System.Text.RegularExpressions;
// Load any PDF document
var pdf = PdfDocument.FromFile("AnnualReport2024.pdf");
// Extract from selected pages
int[] pagesToExtract = { 0, 2, 4 }; // Pages 1, 3, and 5
foreach (var pageIndex in pagesToExtract)
{
    string pageText = pdf.ExtractTextFromPage(pageIndex);
    // Split on 2 or more spaces (tables often flatten into space-separated values)
    var tokens = Regex.Split(pageText, @"\s{2,}");
    foreach (string token in tokens)
    {
        // Match totals, invoice headers, and invoice rows
        if (token.Contains("Invoice") || token.Contains("Total") || token.StartsWith("INV-"))
        {
            Console.WriteLine($"Important: {token.Trim()}");
        }
    }
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Dieses Beispiel zeigt, wie man Text aus PDF-Dokumenten extrahiert, nach Schlüsselinformationen sucht und es auf die Speicherung in Datendateien oder eine Wissensdatenbank vorbereitet. Die Methode ExtractTextFromPage() behält die Lesereihenfolge des Dokuments bei und eignet sich daher perfekt für die Dokumentenanalyse und die Indexierung von Inhalten.

PDF Data Extraction .NET: Vollständiges Entwicklerhandbuch: Abbildung 3 - Konsolenausgabe der aus bestimmten Seiten extrahierten Daten

Tabellendaten aus PDF-Dokumenten extrahieren

Tabellen in PDF-Dateien haben keine native Struktur; sie sind einfach Textinhalte, die so positioniert sind, dass sie wie Tabellen aussehen. IronPDF extrahiert tabellarische Daten unter Wahrung der Layouts, sodass Sie diese in Excel- oder Textdateien verarbeiten können. Für dieses Beispiel verwenden wir dieses PDF:

PDF Data Extraction .NET: Vollständiges Entwicklerhandbuch: Bild 4 - Bild 4 von 6 im Zusammenhang mit PDF-Datenextraktion .NET: Vollständiger Leitfaden für Entwickler

Unser Ziel ist es, die Daten aus der Tabelle selbst zu extrahieren und so die Fähigkeit von IronPDF zu demonstrieren, tabellarische Daten zu parsen.

using IronPdf;
using System;
using System.Text;
using System.Text.RegularExpressions;
var pdf = PdfDocument.FromFile("example.pdf");
string rawText = pdf.ExtractAllText();
// Split into lines for processing
string[] lines = rawText.Split('\n');
var csvBuilder = new StringBuilder();
foreach (string line in lines)
{
    if (string.IsNullOrWhiteSpace(line) || line.Contains("Page"))
        continue;
    string[] rawCells = Regex.Split(line.Trim(), @"\s+");
    string[] cells;
    // If the line starts with "Product", combine first two tokens as product name
    if (rawCells[0].StartsWith("Product") && rawCells.Length >= 5)
    {
        cells = new string[rawCells.Length - 1];
        cells[0] = rawCells[0] + " " + rawCells[1]; // Combine Product + letter
        Array.Copy(rawCells, 2, cells, 1, rawCells.Length - 2);
    }
    else
    {
        cells = rawCells;
    }
    // Keep header or table rows
    bool isTableOrHeader = cells.Length >= 2
                           && (cells[0].StartsWith("Item") || cells[0].StartsWith("Product")
                               || Regex.IsMatch(cells[0], @"^INV-\d+"));
    if (isTableOrHeader)
    {
        Console.WriteLine($"Row: {string.Join("|", cells)}");
        string csvRow = string.Join(",", cells).Trim();
        csvBuilder.AppendLine(csvRow);
    }
}
// Save as CSV for Excel import
File.WriteAllText("extracted_table.csv", csvBuilder.ToString());
Console.WriteLine("Table data exported to CSV");
using IronPdf;
using System;
using System.Text;
using System.Text.RegularExpressions;
var pdf = PdfDocument.FromFile("example.pdf");
string rawText = pdf.ExtractAllText();
// Split into lines for processing
string[] lines = rawText.Split('\n');
var csvBuilder = new StringBuilder();
foreach (string line in lines)
{
    if (string.IsNullOrWhiteSpace(line) || line.Contains("Page"))
        continue;
    string[] rawCells = Regex.Split(line.Trim(), @"\s+");
    string[] cells;
    // If the line starts with "Product", combine first two tokens as product name
    if (rawCells[0].StartsWith("Product") && rawCells.Length >= 5)
    {
        cells = new string[rawCells.Length - 1];
        cells[0] = rawCells[0] + " " + rawCells[1]; // Combine Product + letter
        Array.Copy(rawCells, 2, cells, 1, rawCells.Length - 2);
    }
    else
    {
        cells = rawCells;
    }
    // Keep header or table rows
    bool isTableOrHeader = cells.Length >= 2
                           && (cells[0].StartsWith("Item") || cells[0].StartsWith("Product")
                               || Regex.IsMatch(cells[0], @"^INV-\d+"));
    if (isTableOrHeader)
    {
        Console.WriteLine($"Row: {string.Join("|", cells)}");
        string csvRow = string.Join(",", cells).Trim();
        csvBuilder.AppendLine(csvRow);
    }
}
// Save as CSV for Excel import
File.WriteAllText("extracted_table.csv", csvBuilder.ToString());
Console.WriteLine("Table data exported to CSV");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Tabellen in PDFs sind normalerweise nur Text, der so positioniert ist, dass er wie ein Raster aussieht. Diese Überprüfung hilft zu bestimmen, ob eine Zeile zu einer Tabellenzeile oder einem -header gehört. Indem Sie Header, Footer und nicht verwandten Text herausfiltern, können Sie saubere tabellarische Daten aus einem PDF extrahieren, und sie werden bereit für CSV oder Excel sein.

Dieser Workflow funktioniert für PDF-Formulare, Finanzdokumente und Berichte. Sie können die Daten aus den PDFs später in xlsx-Dateien umwandeln oder sie in eine Zip-Datei zusammenführen, die alle nützlichen Daten enthält. Für komplexe Tabellen mit zusammengeführten Zellen müssen Sie möglicherweise die Parsing-Logik basierend auf den Spaltenpositionen anpassen.

PDF Data Extraction .NET: Vollständiges Entwicklerhandbuch: Bild 5 - Extrahierte Tabellendaten

Formularfelddaten aus PDFs extrahieren

IronPDF ermöglicht auch die Extraktion und Bearbeitung von Formulardaten:

using IronPdf;
using System.Drawing;
using System.Linq;
var pdf = PdfDocument.FromFile("form_document.pdf");
// Extract form field data
var form = pdf.Form;
foreach (var field in form) // Removed '.Fields' as 'FormFieldCollection' is enumerable
{
    Console.WriteLine($"{field.Name}: {field.Value}");
    // Update form values if needed
    if (field.Name == "customer_name")
    {
        field.Value = "Updated Value";
    }
}
// Save modified form
pdf.SaveAs("updated_form.pdf");
using IronPdf;
using System.Drawing;
using System.Linq;
var pdf = PdfDocument.FromFile("form_document.pdf");
// Extract form field data
var form = pdf.Form;
foreach (var field in form) // Removed '.Fields' as 'FormFieldCollection' is enumerable
{
    Console.WriteLine($"{field.Name}: {field.Value}");
    // Update form values if needed
    if (field.Name == "customer_name")
    {
        field.Value = "Updated Value";
    }
}
// Save modified form
pdf.SaveAs("updated_form.pdf");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Dieses Snippet extrahiert Formularfeldwerte aus PDFs und lässt Sie diese programmatisch aktualisieren. Dies erleichtert die Verarbeitung von PDF-Formularen und die Extraktion festgelegter Informationen zur Analyse oder Berichtserstellung. Dies ist nützlich zur Automatisierung von Arbeitsabläufen wie Kundeneinführung, Umfrageverarbeitung oder Datenvalidierung.

PDF Data Extraction .NET: Vollständiges Entwicklerhandbuch: Bild 6 - Extrahierte Formulardaten und das aktualisierte Formular

Nächste Schritte

IronPDF macht die Datenextraktion aus PDFs in .NET praktisch und effizient. Sie können Bilder, Text, Tabellen, Formularfelder und sogar Anhänge aus einer Vielzahl von PDF-Dokumenten extrahieren, einschließlich gescannter PDFs, die normalerweise zusätzliche OCR-Verarbeitung erfordern.

Ob Ihr Ziel der Aufbau einer Wissensdatenbank, die Automatisierung von Berichtserstellungsabläufen oder die Extraktion von Daten aus Finanz-PDFs ist, diese Bibliothek gibt Ihnen die Werkzeuge an die Hand, um dies ohne manuelle Kopie oder fehleranfälliges Parsen zu erreichen. Es ist einfach, schnell und integriert sich direkt in Visual Studio-Projekte. Probieren Sie es aus, Sie werden höchstwahrscheinlich viel Zeit sparen und die üblichen Kopfschmerzen beim Arbeiten mit PDFs vermeiden.

Bereit, PDF-Datenextraktion in Ihre Anwendungen zu integrieren? Klingt IronPDF nach der .NET-Bibliothek für Sie? Starten Sie Ihre kostenlose Testversion, um den vollen Funktionsumfang zu nutzen, oder erkunden Sie unsere Lizenzoptionen für die kommerzielle Nutzung. Besuchen Sie unsere Dokumentation für umfassende Anleitungen und API-Referenzen.

Häufig gestellte Fragen

Was ist die größte Herausforderung bei der Extraktion von Daten aus PDF-Dokumenten?

PDF-Dokumente sind in erster Linie darauf ausgelegt, Inhalte in einem bestimmten Layout darzustellen, was die programmatische Extraktion von Daten erschwert, da der Schwerpunkt auf dem Aussehen und nicht auf der Zugänglichkeit der Daten liegt.

Wie kann IronOCR bei der PDF-Datenextraktion in .NET helfen?

IronOCR bietet Werkzeuge zum Extrahieren von Text und Daten aus PDF-Dateien, einschließlich gescannter Dokumente, durch die Verwendung von optischer Zeichenerkennung (OCR), um Bilder von Text in maschinenlesbare Daten umzuwandeln.

Kann IronOCR gescannte PDF-Dokumente verarbeiten?

Ja, IronOCR ist in der Lage, gescannte PDFs zu verarbeiten, indem es eine fortschrittliche OCR-Technologie verwendet, um Text aus den Bildern im Dokument zu erkennen und zu extrahieren.

Welche Programmiersprache wird mit IronOCR für die PDF-Datenextraktion verwendet?

IronOCR ist für die Verwendung mit C# konzipiert und damit eine ausgezeichnete Wahl für Entwickler, die innerhalb des .NET Frameworks arbeiten, um Daten aus PDFs zu extrahieren.

Gibt es Code-Beispiele für die PDF-Datenextraktion mit IronOCR?

Ja, das Handbuch enthält vollständige C#-Codebeispiele, um zu demonstrieren, wie man mit IronOCR effektiv Daten aus PDF-Dateien extrahiert.

Kann IronOCR Tabellen aus PDF-Dokumenten parsen?

IronOCR enthält Funktionen zum Parsen von Tabellen aus PDF-Dokumenten, so dass Entwickler strukturierte Daten effizient extrahieren können.

Welche Arten von PDF-Inhalten kann IronOCR extrahieren?

IronOCR kann verschiedene Arten von Inhalten aus PDFs extrahieren, darunter Text, Tabellen und Daten aus gescannten Bildern, was es zu einem vielseitigen Werkzeug für die Datenextraktion macht.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen