Extraire le texte

L'extraction de texte en grande quantité à partir de documents peut s'avérer fastidieuse et chronophage, notamment lorsqu'il s'agit de tableaux et de longs paragraphes. La méthode ExtractText d'IronWord permet toutefois de gagner un temps précieux. Il permet aux développeurs d'extraire facilement tout un nombre spécifique de texte dans le document, éliminant le besoin de boucles supplémentaires et simplifiant l'accès à la propriété Text. Cette méthode permet aux développeurs de travailler efficacement et de gagner un temps précieux.

Dans cet exemple, nous allons présenter plusieurs façons d'utiliser la méthode ExtractText et d'améliorer votre efficacité lors de la récupération de texte à partir de documents.

Méthodes utiles pour extraire du texte d'un fichier Docx

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Extraire le texte

Grâce à la bibliothèque IronWord, extraire du texte d'un document Word est un processus simple. Nous commençons par importer la bibliothèque et initialiser la classe WordDocument. Cette étape nous permet de charger un document existant contenant des paragraphes. Nous appelons ensuite la méthode ExtractText et affichons l'intégralité du texte du document dans la console.

Extraire un texte spécifique

L'exemple ci-dessus extrait l'intégralité du texte du document, mais avec la bibliothèque IronWord, vous avez un contrôle total sur le processus d'extraction. Si vous ne souhaitez que des portions ou des paragraphes spécifiques, vous pouvez utiliser la propriété Paragraphs dans le WordDocument pour renvoyer un tableau de Paragraphs. En tant que liste générique, ce tableau peut être manipulé selon vos besoins, soit en appelant l'index comme indiqué ci-dessus avec doc.Paragraphs[0], soit en utilisant les méthodes de tableau intégrées pour les collections C#.

Lors de l'accès à l'index du Paragraphs, nous ne retournons et n'extrayons que le texte du premier paragraphe du document et l'affichons dans la console. Par la suite, nous l'appelons également Last sur le tableau Paragraphs pour retourner et extraire le texte du dernier paragraphe uniquement du document.

Explorez l'API IronWord pour l'extraction de texte avancée

Prêt à commencer?
Nuget Téléchargements 36,374 | Version : 2026.3 vient de sortir
Still Scrolling Icon

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronWord
exécuter un échantillon regarder vos données devenir un document Word.