Text extrahieren

Das Extrahieren großer Textmengen aus Dokumenten kann ineffizient und zeitaufwändig sein, insbesondere bei Tabellen und umfangreichen Textabschnitten. Die ExtractText-Methode von IronWord ist jedoch eine zeitsparende Lösung. Sie ermöglicht es Entwicklern, auf einfache Weise eine bestimmte Anzahl von Textstellen innerhalb des Dokuments zu extrahieren, wodurch zusätzliche Schleifen entfallen und der Zugriff auf die Eigenschaft Text vereinfacht wird. Diese Methode stellt sicher, dass Entwickler effizient arbeiten und wertvolle Zeit sparen können.

In diesem Beispiel zeigen wir Ihnen verschiedene Möglichkeiten, die ExtractText-Methode zu nutzen und Ihre Effizienz beim Abrufen von Text aus Dokumenten zu steigern.

Nützliche Wege, um Text aus einer Docx zu extrahieren

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Text extrahieren

Mit der IronWord-Bibliothek ist das Extrahieren von Text aus einem Word-Dokument ein unkomplizierter Prozess. Wir beginnen damit, die Bibliothek zu importieren und die Klasse WordDocument zu initialisieren. Dieser Schritt ermöglicht es uns, ein vorhandenes Dokument mit Absätzen zu laden. Anschließend rufen wir die Methode ExtractText auf und PRINTen den gesamten Text des Dokuments auf der Konsole.

Spezifischen Text extrahieren

Das obige Beispiel extrahiert den gesamten Text des Dokuments, aber mit der IronWord-Bibliothek haben Sie die volle Kontrolle über den Extraktionsprozess. Wenn Sie nur bestimmte Abschnitte oder Absätze benötigen, können Sie die Eigenschaft Paragraphs im WordDocument verwenden, um ein Array von Paragraphs zurückzugeben. Als generische Liste kann dieses Array nach Ihren Anforderungen bearbeitet werden, entweder durch Aufruf des Index wie oben mit doc.Paragraphs[0] gezeigt oder durch Verwendung der integrierten Array-Methoden für C#-Sammlungen.

Beim Zugriff auf den Index von Paragraphs geben wir nur den Text aus dem ersten Absatz des Dokuments zurück, extrahieren ihn und PRINTen ihn auf der Konsole aus. Anschließend rufen wir auch Last im Array Paragraphs auf, um nur den Text des letzten Absatzes aus dem Dokument zurückzugeben und zu extrahieren.

Erkunden Sie die IronWord-API für die erweiterte Textextraktion

Bereit anzufangen?
Nuget Downloads 44,829 | Version: 2026.5 just released
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronWord
Führen Sie ein Beispiel aus und sehen Sie zu, wie aus Ihren Daten ein Word-Dokument wird.