Text extrahieren

Bei der Extraktion großer Textmengen aus Dokumenten kann der Prozess ineffizient und zeitaufwändig sein, insbesondere wenn es sich um Tabellen und große Mengen an Absätzen handelt. Die ExtractText-Methode von IronWord ist jedoch eine zeitsparende Lösung. Sie ermöglicht Entwicklern, einfach alle gewünschten Texte im Dokument zu extrahieren, ohne zusätzliche Schleifen zu benötigen, und vereinfacht den Zugriff auf die Text-Eigenschaft. Diese Methode stellt sicher, dass Entwickler effizient arbeiten und wertvolle Zeit sparen können.

In diesem Beispiel zeigen wir verschiedene Möglichkeiten, die ExtractText-Methode zu verwenden und Ihre Effizienz beim Abrufen von Text aus Dokumenten zu steigern.

Nützliche Wege, um Text aus einer Docx zu extrahieren

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Text extrahieren

Mit der IronWord-Bibliothek ist das Extrahieren von Text aus einem Word-Dokument ein unkomplizierter Prozess. Wir beginnen damit, die Bibliothek zu importieren und die Klasse WordDocument zu initialisieren. In diesem Schritt können wir ein bestehendes Dokument mit Absätzen laden. Anschließend rufen wir die Methode ExtractText auf und geben den gesamten Text des Dokuments auf der Konsole aus.

Spezifischen Text extrahieren

Das obige Beispiel extrahiert den gesamten Text des Dokuments, aber mit der IronWord-Bibliothek haben Sie die volle Kontrolle über den Extraktionsprozess. Wenn Sie nur bestimmte Abschnitte oder Absätze möchten, können Sie die Paragraphs-Eigenschaft in der WordDocument verwenden, um ein Array von Paragraphs zurückzugeben. Als generische Liste kann dieses Array nach Ihren Anforderungen manipuliert werden, entweder indem der Index wie oben gezeigt mit doc.Paragraphs[0] aufgerufen wird oder indem die eingebauten Array-Methoden für C#-Sammlungen verwendet werden.

Wenn wir auf den Index der Paragraphen zugreifen, geben wir nur den Text des ersten Absatzes des Dokuments zurück und geben ihn auf der Konsole aus. Anschließend rufen wir auch Last auf dem Paragraphs-Array auf, um nur den Text des letzten Absatzes im Dokument zurückzugeben und zu extrahieren.

Erkunden Sie die IronWord-API für die erweiterte Textextraktion

Bereit anzufangen?
Nuget Downloads 28,054 | Version: 2025.12 gerade veröffentlicht