Text extrahieren

Beim Extrahieren eines großen Textvolumens in Dokumenten kann der Prozess ineffizient und zeitaufwendig sein, insbesondere bei der Arbeit mit Tabellen und großen Textmengen. Die ExtractText-Methode von IronWord ist jedoch eine zeitsparende Lösung. Sie ermöglicht Entwicklern, einfach alle gewünschten Texte im Dokument zu extrahieren, ohne zusätzliche Schleifen zu benötigen, und vereinfacht den Zugriff auf die Text-Eigenschaft. Diese Methode stellt sicher, dass Entwickler effizient arbeiten und wertvolle Zeit sparen können.

In diesem Beispiel zeigen wir verschiedene Wege, um die ExtractText-Methode zu nutzen und Ihre Effizienz bei der Textrückgewinnung aus Dokumenten zu steigern.

Nützliche Wege, um Text aus einer Docx zu extrahieren

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Text extrahieren

Mit der IronWord-Bibliothek ist das Extrahieren von Text aus einem Word-Dokument ein unkomplizierter Prozess. Wir beginnen mit dem Import der Bibliothek und der Initialisierung der WordDocument-Klasse. Dieser Schritt ermöglicht es uns, ein bestehendes Dokument mit Absätzen zu laden. Wir rufen dann die ExtractText-Methode auf und geben den gesamten Text des Dokuments in der Konsole aus.

Spezifischen Text extrahieren

Das obige Beispiel extrahiert den gesamten Text des Dokuments, aber mit der IronWord-Bibliothek haben Sie die volle Kontrolle über den Extraktionsprozess. Wenn Sie nur bestimmte Abschnitte oder Absätze möchten, können Sie die Paragraphs-Eigenschaft in der WordDocument verwenden, um ein Array von Paragraphs zurückzugeben. Als generische Liste kann dieses Array nach Ihren Anforderungen manipuliert werden, entweder indem der Index wie oben gezeigt mit doc.Paragraphs[0] aufgerufen wird oder indem die eingebauten Array-Methoden für C#-Sammlungen verwendet werden.

Beim Zugriff auf den Index der Paragraphs geben wir nur den Text des ersten Absatzes des Dokuments zurück und extrahieren ihn, um ihn auf der Konsole auszugeben. Anschließend rufen wir auch Last auf dem Paragraphs-Array auf, um nur den Text des letzten Absatzes im Dokument zurückzugeben und zu extrahieren.

Erkunden Sie die IronWord-API für erweiterte Textextraktion

Bereit anzufangen?
Nuget Downloads 25,807 | Version: 2025.11 gerade veröffentlicht