Extraire le texte

Lorsque vous extrayez un grand volume de texte sur des documents, le processus peut être inefficace et chronophage, surtout lorsqu'il s'agit de tableaux et de grandes quantités de paragraphes. Cependant, la méthode ExtractText d'IronWord est une solution qui permet d'économiser du temps. Elle permet aux développeurs d'extraire facilement un nombre spécifique de textes au sein du document, éliminant ainsi le besoin de boucles supplémentaires et simplifiant l'accès à la propriété Text. Cette méthode garantit que les développeurs peuvent travailler efficacement et gagner un temps précieux.

Dans cet exemple, nous allons présenter plusieurs façons d'utiliser la méthode ExtractText et d'améliorer votre efficacité lors de la récupération de texte à partir de documents.

Moyens utiles pour extraire du texte d'un Docx

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Extraire du texte

En utilisant la bibliothèque IronWord, extraire du texte d'un document Word est un processus simple. Nous commençons par importer la bibliothèque et initialiser la classe WordDocument. Cette étape nous permet de charger un document existant avec des paragraphes. Nous appelons alors la méthode ExtractText et affichons l'intégralité du texte du document sur la console.

Extraire un texte spécifique

L'exemple ci-dessus extrait le texte entier du document, mais avec la bibliothèque IronWord, vous avez un contrôle total sur le processus d'extraction. Si vous ne souhaitez que des portions ou des paragraphes spécifiques, vous pouvez utiliser la propriété Paragraphs dans le WordDocument pour retourner un tableau de Paragraphs. En tant que liste générique, ce tableau peut être manipulé selon vos besoins, soit en appelant l'index comme montré ci-dessus avec doc.Paragraphs[0] soit en utilisant les méthodes intégrées des tableaux pour les collections C#.

En accédant à l'index des Paragraphs, nous ne retournons et extrayons que le texte du premier paragraphe du document et l'affichons sur la console. Ensuite, nous appelons également Last sur le tableau Paragraphs pour retourner et extraire le texte du dernier paragraphe uniquement du document.

Explorez l'API IronWord pour une extraction de texte avancée

Prêt à commencer?
Nuget Téléchargements 27,129 | Version: 2025.11 vient de sortir