Extraire le texte

Lors de l'extraction d'un volume important de texte dans des documents, le processus peut s'avérer inefficace et chronophage, en particulier lorsqu'il s'agit de tableaux et de nombreux paragraphes. Cependant, la méthode ExtractText d'IronWord constitue une solution permettant de gagner du temps. Elle permet aux développeurs d'extraire facilement tout un nombre spécifique de texte au sein du document, éliminant ainsi le besoin de boucles supplémentaires et simplifiant l'accès à la propriété Text. Cette méthode permet aux développeurs de travailler efficacement et de gagner un temps précieux.

Dans cet exemple, nous vous présenterons plusieurs façons d'utiliser la méthode ExtractText et d'améliorer votre efficacité lors de l'extraction de texte à partir de documents.

Méthodes utiles pour extraire du texte d'un fichier Docx

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Extraire le texte

Grâce à la bibliothèque IronWord, extraire du texte d'un document Word est un processus simple. Nous commençons par importer la bibliothèque et initialiser la classe WordDocument. Cette étape nous permet de charger un document existant contenant des paragraphes. Nous appelons ensuite la méthode ExtractText et affichons l'intégralité du texte du document sur la console.

Extraire un texte spécifique

L'exemple ci-dessus extrait l'intégralité du texte du document, mais avec la bibliothèque IronWord, vous avez un contrôle total sur le processus d'extraction. Si vous ne souhaitez traduire que des parties ou des paragraphes spécifiques, vous pouvez utiliser la propriété Paragraphs dans WordDocument pour renvoyer un tableau de Paragraphs. En tant que liste générique, ce tableau peut être manipulé selon vos besoins, soit en appelant l'index comme indiqué ci-dessus avec doc.Paragraphs[0], soit en utilisant les méthodes de tableau intégrées pour les collections C#.

Lors de l'accès à l'index de Paragraphs, nous ne récupérons et n'extrayons que le texte du premier paragraphe du document et le PRINTons sur la console. Par la suite, nous l'appelons également Last sur le tableau Paragraphs pour renvoyer et extraire uniquement le texte du dernier paragraphe du document.

Explorez l'API IronWord pour l'extraction de texte avancée

Prêt à commencer?
Nuget Téléchargements 44,829 | Version : 2026.5 just released
Still Scrolling Icon

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronWord
exécuter un échantillon regarder vos données devenir un document Word.