Text aus DOCX mit C# und IronWord extrahieren

This article was translated from English: Does it need improvement?
Translated
View the article in English

Die Textextraktion aus DOCX-Dateien ist oft eine wichtige Voraussetzung für die Dokumentenverarbeitung und Datenanalyse. IronWord bietet eine einfache Möglichkeit, Textinhalte aus bestehenden DOCX-Dateien zu lesen und zu extrahieren, wobei der Zugriff auf Absätze, Tabellen und andere Textelemente programmatisch sichergestellt wird.

Dieser Leitfaden konzentriert sich auf die Methode ExtractText() und ihre Fähigkeit, Text aus mehreren Dokumentkomponenten zu extrahieren.

Erste Schritte mit IronWord

Nutzen Sie IronWord heute kostenlos in Ihrem Projekt.

Erster Schritt:
green arrow pointer


Beispiel für Textextraktion

Die Methode ExtractText() ruft den Textinhalt eines ganzen Word-Dokuments ab. In diesem Beispiel wird ein neues Dokumentobjekt instanziiert, ein Beispieltext hinzugefügt, die Methode ExtractText() aufgerufen und das Ergebnis in der Konsole angezeigt.

:path=/static-assets/word/content-code-examples/how-to/extract-text-simple.cs
using IronWord;

// Instantiate a new DOCX file
WordDocument doc = new WordDocument();

// Add text
doc.AddText("Hello, World!");

// Print extracted text from the document to the console
Console.WriteLine(doc.ExtractText());
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Ausgabe

Codebeispiel für die grundlegende Textextraktion

Konsolenprotokoll

Konsolenausgabe mit extrahiertem Text

Text aus einem Absatz extrahieren

Für eine bessere Kontrolle können Sie Text aus bestimmten Absätzen anstatt aus dem gesamten Dokument extrahieren. Durch Zugriff auf die Sammlung Paragraphen können Sie jeden beliebigen Abschnitt ansteuern und bearbeiten. In diesem Beispiel extrahieren wir Text aus dem ersten und letzten Absatz, kombinieren ihn und speichern das Ergebnis in einer .txt-Datei.

:path=/static-assets/word/content-code-examples/how-to/extract-text-paragraphs.cs
using IronWord;
using System.IO;

// Load an existing DOCX file
WordDocument doc = new WordDocument("document.docx");

// Extract text and assign variables
string firstParagraph = doc.Paragraphs[0].ExtractText();
string lastParagraph = doc.Paragraphs.Last().ExtractText();

// Combine the texts
string newText = firstParagraph + " " + lastParagraph;

// Export the combined text as a new .txt file
File.WriteAllText("output.txt", newText);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Erster Absatz

Ergebnis der Extraktion des ersten Absatzes

Letzter Absatz

Ergebnis der Extraktion des letzten Absatzes

Ausgabe der Textdatei

Kombinierte Textausgabe in einer Textdatei

Die obigen Screenshots zeigen die Extraktion des ersten Absatzes, die Extraktion des letzten Absatzes und die kombinierte Ausgabe, die in einer Textdatei gespeichert wurde.

Textextraktion aus einer Tabelle

Tabellen enthalten oft strukturierte Daten, die zur Weiterverarbeitung oder Analyse extrahiert werden müssen. Mit IronWord können Sie auf Tabellendaten zugreifen, indem Sie durch Zeilen und Zellen navigieren. In diesem Beispiel laden wir ein Dokument, das eine API-Statistiktabelle enthält, und extrahieren einen bestimmten Zellenwert aus der 4. Spalte der 2. Zeile.

:path=/static-assets/word/content-code-examples/how-to/extract-text-table.cs
using IronWord;

// Load the API statistics document
WordDocument apiStatsDoc = new WordDocument("api-statistics.docx");

// Extract text from the 1st table, 4th column and 2nd row
string extractedValue = apiStatsDoc.Tables[0].Rows[2].Cells[3].ExtractText();

// Print extracted value
Console.WriteLine($"Target success rate: {extractedValue}");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Beispieltabelle

API-Statistiktabelle im Word-Dokument

Konsolenprotokoll

Wert der extrahierten Tabellenzelle in der Konsole

Häufig gestellte Fragen

Welche Methode wird in IronWord primär verwendet, um Text aus DOCX-Dateien zu extrahieren?

Die primäre Methode zum Extrahieren von Text aus DOCX-Dateien mit IronWord ist die `ExtractText()`-Methode, mit der Sie Textinhalte aus verschiedenen Dokumentelementen wie Absätzen und Tabellen abrufen können.

Wie kann ich mit IronWord Text aus bestimmten Absätzen extrahieren?

Sie können Text aus bestimmten Absätzen extrahieren, indem Sie in IronWord auf die Sammlung „Absätze“ zugreifen. Dadurch können Sie jeden gewünschten Absatz gezielt auswählen und bearbeiten und haben somit mehr Kontrolle über den Textextraktionsprozess.

Ist es mit IronWord möglich, Daten aus Tabellen in DOCX-Dokumenten zu extrahieren?

Ja, IronWord ermöglicht es Ihnen, Daten aus Tabellen zu extrahieren, indem Sie durch Zeilen und Zellen navigieren. Dadurch wird der Zugriff auf strukturierte Daten zur Weiterverarbeitung oder Analyse vereinfacht.

Kann ich den extrahierten Text mit IronWord in eine Datei exportieren?

Ja, sobald Sie den Text mit IronWord extrahiert haben, können Sie ihn weiterverarbeiten und in verschiedene Formate exportieren, z. B. als .txt-Datei, um ihn zu speichern oder weiter zu verwenden.

Welche Schritte sind nötig, um mit IronWord zur Textextraktion zu beginnen?

Um IronWord für die Textextraktion zu verwenden, laden Sie die C#-Bibliothek herunter, erstellen Sie ein neues Word-Dokument, verwenden Sie die Methode `ExtractText()`, um auf den Textinhalt zuzugreifen und ihn zu extrahieren, und verarbeiten oder exportieren Sie den extrahierten Text anschließend nach Bedarf.

Unterstützt IronWord das Extrahieren von Daten aus ganzen DOCX-Dokumenten?

Ja, IronWord unterstützt das Extrahieren von Daten aus ganzen DOCX-Dokumenten. Mit der Methode `ExtractText()` können Sie den gesamten Textinhalt, einschließlich Absätze und Tabellen, abrufen.

Wie handhabt IronWord die Textextraktion aus dem ersten und letzten Absatz eines Word-Dokuments?

Mit IronWord können Sie Text aus bestimmten Absätzen extrahieren, einschließlich des ersten und letzten, indem Sie über die Sammlung „Absätze“ darauf zugreifen und den Text nach Bedarf verarbeiten.

Gibt es eine Möglichkeit, die Konsolenausgabe des extrahierten Textes in IronWord anzuzeigen?

Ja, IronWord bietet die Möglichkeit, den extrahierten Text in der Konsole anzuzeigen, sodass Sie die Ausgabe direkt während des Extraktionsprozesses überprüfen können.

Wie kann ich mit IronWord einen bestimmten Zellenwert aus einer Tabelle in einer DOCX-Datei extrahieren?

Mit IronWord können Sie durch Navigieren in Zeilen und Spalten bestimmte Zellenwerte aus Tabellen extrahieren. Dadurch ist es möglich, Daten aus jeder beliebigen Zelle innerhalb der Tabelle gezielt abzurufen.

Welche Textelemente kann IronWord aus DOCX-Dateien extrahieren?

IronWord kann verschiedene Textelemente aus DOCX-Dateien extrahieren, darunter Absätze, Tabellen und andere Textkomponenten, und bietet somit umfassende Möglichkeiten zur Textextraktion.

Ahmad Sohail
Full-Stack-Entwickler

Ahmad ist ein Full-Stack-Entwickler mit einer soliden Grundlage in C#, Python und Webtechnologien. Er hat ein großes Interesse am Aufbau skalierbarer Softwarelösungen und genießt es, zu erkunden, wie Design und Funktionalität in realen Anwendungen aufeinandertreffen.

Bevor er dem Iron Software Team beitrat, arbeitete ...

Weiterlesen
Bereit anzufangen?
Nuget Downloads 27,129 | Version: 2025.11 gerade veröffentlicht