Passer au contenu du pied de page
UTILISATION D'IRONWORD

Comment extraire du texte de Word en C#

Généralement, la tâche principale des applications de traitement de documents, d'extraction de données ou d'analyse de texte consiste à extraire du texte à partir de fichiers Word. Lors du développement d'une application C#, les développeurs utilisent des bibliothèques telles qu'IronWord qui facilitent la manipulation des fichiers au format .docx et l'accès au texte contenu dans l'instance du document. L'utilisation de ces bibliothèques permet d'automatiser la récupération du contenu des documents Word afin de faciliter la génération de rapports, l'exploration de données, voire la mise en place d'un système de gestion documentaire.

En utilisant une bibliothèque telle qu'IronWord, on peut extraire du texte de n'importe quelle instance de document Word ; Il suffit de charger l'objet document, d'ouvrir les paragraphes ou les sections, puis de récupérer le texte souhaité tout en conservant sa mise en page d'origine. Une telle fonctionnalité s'avérera d'une utilité exceptionnelle dans les domaines juridique, médical et financier, où le traitement des documents fait généralement partie intégrante des flux de travail. C# est incontestablement utilisé pour développer des applications extrêmement évolutives et efficaces qui extraient du texte à partir de fichiers Word. Les développeurs peuvent le combiner avec des systèmes ou des applications plus étendus.

Comment extraire du texte d'un document Word en C

  1. Installez la bibliothèque IronWord via NuGet dans votre projet C#.
  2. Ajoutez using IronWord; en haut de votre fichier C# pour extraire du texte de Word.
  3. Définissez votre clé de licence.
  4. Charger le document Word existant.
  5. Accédez aux paragraphes à l'aide de la propriété Paragraphs .
  6. Parcourez les paragraphes et les éléments de texte à l'aide de boucles foreach .
  7. Extraire et afficher du texte avec Console .

Qu'est-ce qu'IronWord ?

IronWord est un outil puissant pour la récupération de texte, garantissant que tous types de fichiers, tels que les fichiers PDF, Word et TXT, sont facilement récupérés. Il est conçu avec précision et rapidité pour une extraction rapide dans le texte souhaité, structuré ou non structuré, tout en conservant le reste du format original du document. IronWord est également utilisé pour l'analyse de documents, l'extraction de données et l'indexation automatique de contenu.

Comment extraire du texte d'un document Word en C# : Figure 1 - IronWord

Cet outil prend en charge la quasi-totalité des types de fichiers disponibles afin de garantir une intégration fluide avec les applications et est donc idéal pour l'automatisation des processus métier et le traitement de documents à grand volume. L'évolutivité des bibliothèques conçues de cette manière permet de gérer facilement de grands volumes de documents, ce qui constitue un atout important pour les entreprises travaillant avec l'extraction de données en masse.

IronWord est également entièrement compatible avec C# et d'autres langages de programmation, répondant ainsi aux besoins des développeurs et des organisations qui cherchent à optimiser leurs flux de travail documentaires.

Caractéristiques d'IronWord

Prise en charge de plusieurs formats de documents

IronWord accepte les fichiers dans une variété de formats de documents, notamment :

  • PDF : Il peut interpréter le texte des PDF contenant du texte normal, des PDF avec des polices intégrées et ceux basés sur des vecteurs.
  • Fichiers Microsoft Word (DOCX) : Il lit facilement le texte des documents Word tout en conservant intacte la structure et la mise en forme du document.
  • Fichiers texte (TXT) : De plus, IronWord traite les fichiers texte brut, en extrayant et en traitant le texte à partir de texte simple.

Extraction de texte précise

Le moteur d'extraction IronWord est capable d'extraire efficacement du contenu textuel, même s'il est enfoui dans des documents complexes présentant des mises en page sophistiquées, des polices intégrées ou un mélange de contenus tels que des images et des tableaux. La bibliothèque conserve :

  • Mise en forme du texte : Styles tels que le gras, l'italique, le soulignement et autres aspects stylistiques appliqués au texte.
  • Hiérarchie du document : titres, paragraphes et listes pour maintenir l'organisation et la lisibilité.

Gestion des données structurées et non structurées

IronWord gère les données structurées et non structurées. Il peut extraire :

  • Données structurées : documents présentant des modèles de formatage prévisibles, tels que les formulaires et les contrats.
  • Données non structurées : documents dont la mise en page est imprévisible, tels que des rapports ou des articles.

Grâce à sa capacité à traiter un large éventail de contenus, il s'est avéré utile dans des tâches impliquant l'exploration de données, la recherche d'informations et la classification.

Évolutivité pour les gros volumes

IronWord est conçu pour traiter efficacement de grands volumes de documents, offrant une excellente évolutivité pour les applications d'entreprise. Les exemples incluent :

  • Traitement par lots de documents : Traitement simultané de plusieurs documents.
  • Gestion des fichiers volumineux : aucune dégradation des performances, même avec des documents de grande taille.

Intégration transparente avec les langages de programmation

IronWord s'intègre parfaitement aux environnements de développement, notamment Python, grâce à des API conviviales. Cela permet aux développeurs de :

  • Importer IronWord dans des applications Python : utilisez directement les fonctions IronWord dans vos scripts Python.
  • Interopérabilité multilingue : Au-delà de Python, IronWord peut être utilisé efficacement dans d'autres langages, facilitant ainsi l'interopérabilité des piles technologiques.

Cette facilité d'intégration permet aux développeurs de se concentrer sur les fonctionnalités plutôt que sur l'infrastructure.

Haute performance et vitesse

IronWord a été optimisé pour la performance, offrant une extraction de texte rapide même à partir de documents volumineux, ce qui est essentiel pour les applications en temps réel nécessitant une exécution rapide. La bibliothèque propose :

  • Prise en charge du multithreading : amélioration des processus d'extraction simultanés.
  • Faible empreinte mémoire : utilisation optimale des ressources système pendant le traitement, permettant une évolutivité pour les grands ensembles de données.

Assistance OCR optionnelle

Pour les documents contenant des images, IronWord peut être utilisé conjointement avec les technologies OCR pour :

  • Traitement des documents numérisés : extraction de texte à partir d'images, de PDF numérisés ou d'autres formats basés sur l'image.
  • Prise en charge multilingue : Reconnaître et extraire du texte dans les langues OCR prises en charge.

Préservation des métadonnées

Outre l'extraction de texte, IronWord préserve les métadonnées des documents, telles que :

  • Informations sur le versionnage et la conformité des documents : utiles à des fins de conformité ou d'archivage.
  • Systèmes de gestion documentaire : où les métadonnées sont aussi importantes que le contenu.

Créer un nouveau projet dans Visual Studio

Pour lancer l'application Visual Studio, choisissez Fichier dans le menu Fichier et sélectionnez " Nouveau projet " avant de sélectionner " Application console ".

Comment extraire du texte d'un document Word en C# : Figure 2 - Application console

Saisissez le nom du projet .NET dans le champ de texte après avoir sélectionné son emplacement, puis cliquez sur le bouton Créer et sélectionnez le framework .NET requis.

Comment extraire du texte de Word en C# : Figure 3 - Configuration du projet

La structure des projets Visual Studio varie en fonction de l'application sélectionnée. Pour implémenter ou exécuter le code de l'application, consultez le fichier Program.cs, applicable aux applications console, Windows ou en ligne.

Comment extraire du texte de Word en C# : Figure 4 - Framework cible

La bibliothèque peut ensuite être testée une fois le code saisi.

Installer la bibliothèque IronWord

Dans le menu Outils de Visual Studio, choisissez Gestionnaire de packages NuGet. Pour accéder à la console de gestion des packages, accédez à l'interface du Gestionnaire de packages.

Install-Package IronWord

Une fois téléchargé et installé, le package peut être utilisé pour l'extraction de texte dans un projet en cours.

Comment extraire du texte de Word en C# : Figure 5 - Installation d'IronWord

La méthode du gestionnaire de packages offre une autre option, permettant une installation directe dans la solution via le gestionnaire de packages NuGet de Visual Studio. Le graphique ci-dessous illustre comment accéder au Gestionnaire de paquets.

Comment extraire du texte de Word en C# : Figure 6 - Gestionnaire de packages NuGet

Utilisez le champ de recherche du site web NuGet pour localiser les packages. Recherchez " IronWord " avec le gestionnaire de paquets comme indiqué dans la capture d'écran ci-dessous.

Comment extraire du texte d'un document Word en C# : Figure 7 - Recherche IronWord

Le graphique ci-joint affiche les résultats de recherche associés. Veuillez effectuer ces modifications pour installer le logiciel sur votre ordinateur.

Extraire du texte d'un document Word

Pour extraire du texte d'un document à l'aide d'IronWord, suivez ces étapes. L'exemple de code ci-dessous illustre l'extraction de texte à partir d'un document Word (.docx) à l'aide de la bibliothèque IronWord en C#.

// Include necessary libraries
using IronWord;

// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";

// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");

// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;

// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
    for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
    {
        // Print each text element to the console
        Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
    }
}

// Wait for user input before closing the console
Console.ReadKey();
// Include necessary libraries
using IronWord;

// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";

// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");

// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;

// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
    for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
    {
        // Print each text element to the console
        Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
    }
}

// Wait for user input before closing the console
Console.ReadKey();
' Include necessary libraries
Imports IronWord

' Set the license key for IronWord
IronWord.License.LicenseKey = "License key here"

' Load the Word document
Dim docx1 = New WordDocument("D:\C# Projects\ConsoleApp\ConsoleApp\File\existing.docx")

' Access the collection of paragraphs in the document
Dim paragraphObj = docx1.Paragraphs

' Loop through each paragraph and its text elements
For i As Integer = 0 To paragraphObj.Count - 1
	Dim j As Integer = 0
	Do While j < paragraphObj(i).Texts.Count
		' Print each text element to the console
		Console.WriteLine(paragraphObj(i).Texts(j).Text.ToString())
		j += 1
	Loop
Next i

' Wait for user input before closing the console
Console.ReadKey()
$vbLabelText   $csharpLabel

Le code initialise la clé de licence pour IronWord et charge un document .docx à partir d'un chemin spécifié, créant ainsi un objet WordDocument. Une fois le document chargé, il accède à tous les paragraphes via la propriété Paragraphs .

Comment extraire du texte d'un document Word en C# : Figure 8 - Exemple de document Word

Une boucle imbriquée parcourt les paragraphes et leurs éléments de texte. La boucle externe parcourt chaque paragraphe, tandis que la boucle interne traite les éléments textuels de chaque paragraphe. Les éléments de texte sont affichés dans la console après leur conversion en chaînes de caractères.

Comment extraire du texte de Word en C# : Figure 9 - Sortie console

Console.ReadKey() suspend l'exécution du programme, permettant l'affichage de la sortie jusqu'à ce qu'une entrée utilisateur soit effectuée avant de fermer la fenêtre de l'application. Cette méthode extrait et imprime le contenu des documents Word de manière ordonnée.

Conclusion

IronWord est un outil polyvalent et efficace pour l'extraction de texte à partir de divers formats de documents, particulièrement adapté aux documents Word. Son API conviviale et ses fonctionnalités d'extraction de texte structuré en font une solution fiable pour les développeurs à la recherche d'une récupération automatisée du contenu des documents. Cet outil préserve la mise en forme lors du traitement de documents complexes, ce qui s'avère précieux pour les applications juridiques, la gestion de contenu d'entreprise et d'autres domaines. La mise en œuvre d'IronWord améliore les tâches d'analyse, d'extraction et de traitement des documents, augmentant ainsi la productivité et la précision lors du traitement de volumes importants de texte.

Le prix de départ d'IronWord est de 599 $. Les utilisateurs peuvent opter pour un abonnement annuel unique, donnant accès au support technique et aux mises à jour logicielles. IronWord engendre des coûts qui empêchent sa distribution gratuite. Veuillez consulter la page de licence d'IronWord pour obtenir des informations tarifaires spécifiques. Découvrez les autres produits Iron Software sur la page produits .

Questions Fréquemment Posées

Comment extraire du texte de documents Word en utilisant C# ?

Vous pouvez extraire du texte des documents Word en utilisant C# en installant la bibliothèque IronWord via NuGet, en ajoutant using IronWord; à votre fichier C#, en initialisant la bibliothèque avec votre clé de licence, en chargeant le document Word et en parcourant les paragraphes pour extraire et afficher le texte.

Quels sont les formats de document pris en charge pour l'extraction de texte avec IronWord ?

IronWord prend en charge l'extraction de texte à partir de divers formats de documents, y compris les fichiers Microsoft Word (DOCX), les fichiers PDF et les fichiers texte brut (TXT).

Comment IronWord assure-t-il une extraction de texte précise depuis des documents Word ?

IronWord maintient la mise en page et le formatage d'origine du texte, offrant une grande précision dans l'extraction de texte à partir de documents Word. Il prend en charge à la fois les données structurées et non structurées, ce qui le rend idéal pour générer des rapports et gérer des documents.

IronWord peut-il être intégré avec d'autres langages de programmation que C# ?

Oui, IronWord est conçu pour une intégration transparente avec d'autres langages de programmation, tels que Python, améliorant l'interopérabilité entre les langages et permettant aux développeurs de l'utiliser dans divers environnements.

IronWord prend-il en charge l'extraction de texte à partir de documents numérisés contenant des images ?

IronWord peut être utilisé avec des technologies OCR pour traiter les documents numérisés, permettant l'extraction de texte à partir d'images et supportant plusieurs langues, ce qui améliore sa polyvalence pour les tâches de traitement de documents.

Quelles sont les fonctionnalités clés de IronWord pour les développeurs C# ?

IronWord offre des fonctionnalités telles qu'une extraction de texte précise, la prise en charge de multiples formats de documents, l'évolutivité, la prise en charge du multithreading, un OCR optionnel pour les images et une intégration transparente avec d'autres langages de programmation, le rendant efficace pour l'analyse de documents et l'extraction de données.

Comment puis-je installer IronWord dans un projet C# ?

Pour installer IronWord dans un projet C#, utilisez le gestionnaire de packages NuGet dans Visual Studio. Recherchez 'IronWord' et ajoutez le package à votre projet pour commencer à extraire du texte des documents Word.

Quel est le modèle de tarification pour l'utilisation de IronWord ?

La tarification de IronWord commence à 599 $ pour des frais d'abonnement annuel unique, qui incluent l'accès au support technique et aux mises à jour logicielles, garantissant que vous disposez des dernières fonctionnalités et corrections.

Comment IronWord gère-t-il de grands volumes de documents pour l'extraction de texte ?

IronWord est optimisé pour la performance avec des fonctionnalités telles que la prise en charge du multithreading, ce qui lui permet de gérer et de s'adapter efficacement à de grands volumes de documents, le rendant adapté pour les applications au niveau entreprise.

Quels avantages IronWord offre-t-il pour le traitement de documents dans des secteurs comme le juridique ou la santé ?

IronWord améliore l'efficacité du traitement des documents en prenant en charge l'extraction de texte à partir de divers formats tout en maintenant le formatage d'origine. Son évolutivité et ses optimisations de performance le rendent idéal pour des secteurs comme le juridique et la santé où la gestion des documents est essentielle.

Jordi Bardia
Ingénieur logiciel
Jordi est le plus compétent en Python, C# et C++, et lorsqu'il ne met pas à profit ses compétences chez Iron Software, il programme des jeux. Partageant les responsabilités des tests de produit, du développement de produit et de la recherche, Jordi apporte une immense valeur à l'amé...
Lire la suite