UTILISATION D'IRONWORD

Comment extraire du texte de Word en C#

Publié octobre 23, 2024
Partager:

Introduction

En général, la tâche principale dans les applications de traitement de documents, d'extraction de données ou d'analyse de texte est l'extraction de texte à partir de fichiers de documents Word. Lors du développement d'une application C#, les développeurs utilisent des bibliothèques telles qu'IronWord qui permettent de travailler avec des fichiers au format .docx et d'accéder au texte à l'intérieur de l'instance de document à partir de celle-ci. L'utilisation de ces bibliothèques permet d'automatiser la manière dont le contenu est récupéré à partir de la base de données duDocuments Word la traduction doit rester professionnelle, en préservant la précision technique tout en expliquant les caractéristiques et les avantages de ces outils de développement.

En utilisant une bibliothèque telle qu'IronWord, on peut extraire du texte de n'importe quelle instance de document Word ; il suffit de charger l'objet document, d'ouvrir des paragraphes ou des sections, puis de récupérer le texte souhaité tout en conservant sa mise en page d'origine. Ces fonctionnalités s'avéreront d'une utilité exceptionnelle dans les domaines juridique, médical et financier, où le traitement des documents s'inscrit normalement dans le cadre des flux de travail. C# est sans aucun doute utilisé pour développer des applications extrêmement évolutives et efficaces qui extraient du texte à partir de fichiers Word. Les développeurs peuvent l'associer à des systèmes ou des applications plus vastes.

Comment extraire du texte de Word en C# ;

  1. Installez la bibliothèque IronWord via NuGet dans votre projet C#.

  2. Ajoutez l'utilisation d'IronWord, en haut de votre fichier C# pour extraire le texte de Word.

  3. Définissez votre clé de licence.

  4. Chargez le document Word existant.

  5. Accédez aux paragraphes à l'aide de la méthode des paragraphes.

  6. Bouclez les paragraphes et les éléments de texte à l'aide de boucles foreach.

  7. Extraire et afficher du texte avec Console.

Qu'est-ce qu'IronWord ?

IronWord est une force puissante dans la récupération de texte et garantit que tous les types de fichiers, tels que PDF, Word, fichiers txt, etc. sont récupérés facilement. Elle est conçue avec précision et rapidité pour une extraction rapide dans le texte requis, structuré ou non, tout en conservant le reste du format original du document. IronWord est également utilisé pour l'analyse de documents, l'extraction de données et l'indexation automatique du contenu.

Comment extraire du texte de Word en C# : Figure 1 - IronWord

Ce logiciel prend en charge la quasi-totalité des types de fichiers disponibles afin d'assurer une intégration harmonieuse avec les applications. Il est donc idéal pour l'automatisation des activités et le traitement de gros volumes de documents. L'évolutivité des bibliothèques ainsi conçues permettra de traiter facilement des volumes de documents, ce qui s'avère être un atout important, en particulier pour les entreprises qui travaillent avec l'extraction de données en masse.

IronWord est également entièrement compatible avec C# et d'autres langages de programmation, de sorte qu'il répond aux besoins de la plupart des développeurs et des organisations qui recherchent le moyen le plus fluide de rationaliser leurs flux de travail documentaires.

Caractéristiques d'IronWord

Prise en charge de plusieurs formats de documents

IronWord accepte les fichiers dans un large éventail de formats de documents. Il s'agit notamment de

  • PDF : Il peut interpréter du texte sur des PDF avec du texte ordinaire, des PDF avec des polices intégrées et des PDF basés sur des vecteurs.
  • Fichiers Microsoft Word(DOCX): Il lit facilement le texte de Word tout en conservant la structure et le formatage du document.
  • Fichiers texte(Fichier TXT): En plus de tous les formats ci-dessus, IronWord est même capable de traiter des fichiers de texte brut et d'extraire et de traiter du texte à partir d'un texte simple non formaté.

Extraction précise du texte

Le moteur d'extraction d'IronWord est capable d'extraire à coup sûr le contenu textuel, même s'il est enfoui dans des documents complexes avec des mises en page tout aussi sophistiquées, des polices intégrées ou un mélange de contenus tels que des images et des tableaux, etc. La bibliothèque conserve :

  • Formatage du texte: Gras, italique, souligné et tout autre aspect stylistique appliqué au texte.
  • Hiérarchie du document: En-têtes, paragraphes et listes pour mettre les choses en perspective et les rendre plus lisibles.

Traitement des données structurées et non structurées

IronWord sait traiter les données structurées et non structurées. Elle devra extraire :

  • Données structurées: Les documents qui contiennent des modèles de formatage prévisibles, tels que les formulaires et les contrats.
  • Données non structurées: En cas de mise en page de texte, de rapports ou d'articles imprévisibles.

    Il s'est avéré être l'un des outils les plus utiles pour l'exploration de données, la recherche d'informations et les tâches de classification, car il peut traiter une grande variété de contenus.

Évolutivité pour les gros volumes

IronWord est conçu pour traiter des volumes de documents assez facilement avec une grande évolutivité concernant les applications d'entreprise. Cela signifie, par exemple, que le traducteur devra travailler efficacement avec un très grand nombre de documents dans les flux suivants :

  • **Il s'agit de traiter plusieurs documents à la fois.
  • Fichiers lourds: Il n'y a pas de dégradation lorsque la taille des documents est importante.

Intégration transparente avec les langages de programmation

IronWord peut s'intégrer de manière transparente dans les environnements de développement, notamment Python grâce à des API faciles que les développeurs peuvent ajouter à leurs flux de travail sans problème. Elle permet :

  • Importation d'IronWord dans les applications Python: Les développeurs peuvent utiliser les fonctions au sein des scripts Python directement, pour des exécutions sans accroc.
  • Interopérabilité inter-langues: En plus d'être génial pour l'utilisation de Python, IronWord est tout aussi génial pour d'autres langues, et constitue donc un excellent changement inter-langues à travers différentes piles technologiques.

    Cette facilité d'intégration permet de réduire le temps et les efforts consacrés aux activités de développement et de se concentrer davantage sur la fonctionnalité que sur l'infrastructure.

Haute performance et rapidité

L'IronWord bénéficie d'un réglage des performances, et l'on constate une amélioration de la vitesse d'extraction du texte des documents volumineux. Cela peut s'avérer très important dans plusieurs applications en temps réel qui nécessitent une exécution rapide pour lire le texte. La bibliothèque peut :

  • **La traduction doit rester professionnelle et préserver l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement.
  • **La traduction doit rester professionnelle et préserver l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement.

Prise en charge de l'OCR en option

Le document contient des images. IronWord peut être utilisé en conjonction avec les technologies de reconnaissance optique de caractères (OCR) pour offrir au lecteur ce qui suit :

  • Documents numérisés: Extraire le texte d'images, de PDF numérisés ou de tout autre format impliquant des images.
  • Prise en charge multilingue: Être capable de reconnaître et d'imprimer du texte dans les langues prises en charge par l'OCR.

Préservation des métadonnées

Le texte n'est pas la seule chose qu'IronWord extrait. En outre, elle préserve les métadonnées du document, telles que :

  • Les versions des documents et toute autre information utile à des fins de conformité ou d'archivage.
  • Ceci est très utile dans un système de gestion de documents dont les métadonnées sont aussi importantes que le contenu.

Création d'un nouveau projet dans Visual Studio

Pour lancer l'application Visual Studio, choisissez Fichier dans le menu Fichier. Une fois que vous avez choisi "Nouveau projet", sélectionnez "Console App"

Comment extraire du texte de Word en C# : Figure 2 - Application console

Saisissez maintenant le nom du projet .NET dans le champ de texte donné après avoir sélectionné l'emplacement du fichier et enregistrez-le. Ensuite, comme vous pouvez le voir dans l'exemple suivant, cliquez sur le bouton Créer et sélectionnez le .NET Framework requis.

Comment extraire du texte de Word en C# : Figure 3 - Configuration du projet

La structure du projet Visual Studio varie en fonction de l'application sélectionnée. Pour mettre en œuvre ou exécuter l'application et saisir le code, consultez le fichier Program.cs. Vous pouvez utiliser l'application Console, Windows ou Online.

Comment extraire du texte de Word en C# : Figure 4 - Cadre cible

Le code peut ensuite être testé et la bibliothèque ajoutée.

Installer la bibliothèque IronWord

Utilisation de l'outil Visual Studio Dans le menu Outils, choisissez NuGet Package Manager. Pour afficher la console du terminal de gestion des paquets, naviguez jusqu'à l'interface du gestionnaire de paquets.

Install-Package Ironword
Install-Package Ironword
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package Ironword
VB   C#

Une fois téléchargé et installé, le paquet peut être utilisé pour extraire du texte dans le projet en cours.

Comment extraire du texte de Word en C# : Figure 5 - Installer IronWord

Une autre tactique consiste à utiliser la méthode du gestionnaire de paquets. L'installation directe dans la solution est possible grâce à l'option NuGet Package Manager de Visual Studio. Le graphique suivant illustre comment accéder au gestionnaire de paquets.

Comment extraire du texte de Word en C# : Figure 6 - Gestionnaire de paquets NuGet

Pour localiser les packages, utilisez le champ de recherche sur le site web de NuGet. Il vous suffit de rechercher "IronWord" à l'aide du gestionnaire de paquets, comme l'illustre la capture d'écran ci-dessous.

Comment extraire du texte de Word en C# : Figure 7 - Recherche dans IronWord

Le graphique ci-joint présente une liste de résultats de recherche connexes. Veuillez procéder à ces ajustements afin que le logiciel puisse être installé sur votre ordinateur.

Extraire le texte d'un document Word

Pour extraire du texte d'un document à l'aide d'IronWord, procédez comme suit . L'exemple de code ci-dessous décrit comment extraire le texte d'un document Word(.docx) en utilisant la bibliothèque IronWord en C#.

using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
    for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
    {
   Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
    }
}
Console.ReadKey();
using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
    for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
    {
   Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
    }
}
Console.ReadKey();
Imports IronWord
IronWord.License.LicenseKey = "Licence key here"
Dim docx1 = New WordDocument("D:\C# Projects\ConsoleApp\ConsoleApp\File\existing.docx")
Dim paragrapbobj = docx1.Paragraphs
For i As Integer = 0 To paragrapbobj.Count - 1
	Dim j As Integer=0
	Do While j< paragrapbobj(i).Texts.Count
   Console.WriteLine(paragrapbobj(i).Texts(j).Text.ToString())
		j += 1
	Loop
Next i
Console.ReadKey()
VB   C#

Initialise la clé de licence pour IronWord, dans cet exemple en la définissant comme une chaîne vide ou éventuellement une version d'essai. Ouvre un document situé à ce chemin qui existe déjà au format .docx en instanciant un objet document Word. Une fois le nouveau document chargé, le code accède à tous les paragraphes contenus dans le fichier en utilisant la propriété DOCX ou doc.Paragraphs.

Comment extraire du texte de Word en C# : Figure 8 - Exemple de document Word

Elle utilise une boucle imbriquée pour le processus itératif de ces outils de développementparagraphes et leurs éléments textuels. La boucle extérieure fait le tour de chaque paragraphe, puis la boucle intérieure descend dans les éléments de texte contenus dans l'un des paragraphes. Elle saisit chaque morceau de texte en le déchirant en morceaux plus petits si le formatage diffère et le convertit en une chaîne. Ensuite, il imprime le texte extrait sur la console.

Comment extraire du texte de Word en C# : Figure 9 - Sortie de la console

Enfin, Console.ReadKey() est appelé pour suspendre le programme jusqu'à ce que l'utilisateur effectue une saisie tout en fermant la fenêtre de l'application, ce qui permet à la sortie de s'afficher à l'écran avant de fermer la fenêtre de la console de l'application. Voici comment le contenu d'un document Word peut être extrait et imprimé de manière ordonnée.

Conclusion

IronWord est un outil d'extraction de texte très flexible et efficace qui peut être utilisé sur pratiquement n'importe quel format de document, bien qu'il soit très adapté à ceux qui utilisent des documents Word. Sa facilité d'utilisation, ainsi que ses capacités d'extraction de textes structurés, en font une solution conviviale pour les développeurs, sur laquelle on peut compter lorsque des documents doivent être récupérés automatiquement. La traduction doit rester professionnelle, en préservant l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement. Par conséquent, en intégrant simplement IronWord dans votre flux de travail, vous faciliterez considérablement la plupart des tâches liées à l'analyse des documents, à l'extraction et au traitement des données, et vous améliorerez la productivité et la précision du traitement de volumes massifs de texte.

Le prix de départ d'IronWord est de 599 dollars. Les utilisateurs peuvent également payer un abonnement unique d'un an en échange d'une assistance technique et de mises à jour logicielles. IronWord est proposé à titre onéreux, ce qui interdit toute distribution gratuite. Veuillez vous référer à la licencepage d'IronWord pour obtenir des détails plus précis sur les tarifs. Pour en savoir plus sur les autres produits d'Iron Software, consultez le site Web de l'entreprisepage des produits.

< PRÉCÉDENT
Comment ajouter un filigrane à un fichier Word en C#
SUIVANT >
Comment créer un document Word à partir d'un modèle en utilisant C#