Extraire le texte

Lors de l'extraction d'un grand volume de texte sur des documents, le processus peut être inefficace et prendre du temps, en particulier lorsqu'il s'agit de tableaux et d'un grand nombre de paragraphes. Cependant, la méthode ExtractText d'IronWord est une solution qui permet de gagner du temps. Il permet aux développeurs d'extraire facilement la totalité d'un nombre spécifique de textes dans le document, éliminant ainsi le besoin de boucles supplémentaires et simplifiant l'accès à la propriété Text . Cette méthode permet aux développeurs de travailler efficacement et de gagner un temps précieux.

Dans cet exemple, nous présenterons plusieurs façons d'utiliser la méthode ExtractText et d'améliorer votre efficacité lors de l'extraction de texte à partir de documents.

Méthodes utiles pour extraire du texte d'un fichier Docx

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Extraire le texte

Grâce à la bibliothèque IronWord, extraire du texte d'un document Word est un processus simple. Nous commençons par importer la bibliothèque et initialiser la classe WordDocument. Cette étape nous permet de charger un document existant avec des paragraphes. Nous appelons ensuite la méthode ExtractText et imprimons l'intégralité du texte du document sur la console.

Extraire un texte spécifique

L'exemple ci-dessus extrait l'intégralité du texte du document, mais avec la bibliothèque IronWord, vous avez un contrôle total sur le processus d'extraction. Si vous souhaitez uniquement des portions ou des paragraphes spécifiques, vous pouvez utiliser la propriété Paragraphs dans WordDocument pour renvoyer un tableau de Paragraphs . En tant que liste générique, ce tableau peut être manipulé selon vos besoins, soit en appelant l'index comme indiqué ci-dessus avec doc.Paragraphs[0] , soit en utilisant les méthodes de tableau intégrées pour les collections C#.

Lors de l'accès à l'index des Paragraphes, nous ne renvoyons et n'extrayons que le texte du premier paragraphe du document et l'imprimons sur la console. Par la suite, nous l'appelons également Last sur le tableau Paragraphs pour retourner et extraire le texte du dernier paragraphe uniquement du document.

Explorez l'API IronWord pour l'extraction de texte avancée

Prêt à commencer?
Nuget Téléchargements 28,054 | Version : 2025.12 vient de sortir