using IronWord;
using IronWord.Models;
// Load docx
WordDocument doc = new WordDocument("document.docx");
// Add text
doc.AddText("Add text using IronWord");
// Export docx
doc.SaveAs("save_document.docx");
En général, la tâche principale dans les applications de traitement de documents, d'extraction de données ou d'analyse de texte est l'extraction de texte à partir de fichiers de documents Word. Lors du développement d'une application C#, les développeurs utilisent des bibliothèques telles qu'IronWord qui permettent de travailler avec des fichiers au format .docx et d'accéder au texte à l'intérieur de l'instance de document à partir de celle-ci. L'utilisation de ces bibliothèques permet d'automatiser la manière dont le contenu est récupéré à partir de la base de données duDocuments Word la traduction doit rester professionnelle, en préservant la précision technique tout en expliquant les caractéristiques et les avantages de ces outils de développement.
En utilisant une bibliothèque telle qu'IronWord, on peut extraire du texte de n'importe quelle instance de document Word ; il suffit de charger l'objet document, d'ouvrir des paragraphes ou des sections, puis de récupérer le texte souhaité tout en conservant sa mise en page d'origine. Ces fonctionnalités s'avéreront d'une utilité exceptionnelle dans les domaines juridique, médical et financier, où le traitement des documents s'inscrit normalement dans le cadre des flux de travail. C# est sans aucun doute utilisé pour développer des applications extrêmement évolutives et efficaces qui extraient du texte à partir de fichiers Word. Les développeurs peuvent l'associer à des systèmes ou des applications plus vastes.
Comment extraire du texte de Word en C# ;
Installez la bibliothèque IronWord via NuGet dans votre projet C#.
Ajoutez l'utilisation d'IronWord, en haut de votre fichier C# pour extraire le texte de Word.
Définissez votre clé de licence.
Chargez le document Word existant.
Accédez aux paragraphes à l'aide de la méthode des paragraphes.
Bouclez les paragraphes et les éléments de texte à l'aide de boucles foreach.
Extraire et afficher du texte avec Console.
Qu'est-ce qu'IronWord ?
IronWord est une force puissante dans la récupération de texte et garantit que tous les types de fichiers, tels que PDF, Word, fichiers txt, etc. sont récupérés facilement. Elle est conçue avec précision et rapidité pour une extraction rapide dans le texte requis, structuré ou non, tout en conservant le reste du format original du document. IronWord est également utilisé pour l'analyse de documents, l'extraction de données et l'indexation automatique du contenu.
Ce logiciel prend en charge la quasi-totalité des types de fichiers disponibles afin d'assurer une intégration harmonieuse avec les applications. Il est donc idéal pour l'automatisation des activités et le traitement de gros volumes de documents. L'évolutivité des bibliothèques ainsi conçues permettra de traiter facilement des volumes de documents, ce qui s'avère être un atout important, en particulier pour les entreprises qui travaillent avec l'extraction de données en masse.
IronWord est également entièrement compatible avec C# et d'autres langages de programmation, de sorte qu'il répond aux besoins de la plupart des développeurs et des organisations qui recherchent le moyen le plus fluide de rationaliser leurs flux de travail documentaires.
Caractéristiques d'IronWord
Prise en charge de plusieurs formats de documents
IronWord accepte les fichiers dans un large éventail de formats de documents. Il s'agit notamment de
PDF : Il peut interpréter du texte sur des PDF avec du texte ordinaire, des PDF avec des polices intégrées et des PDF basés sur des vecteurs.
Fichiers Microsoft Word(DOCX): Il lit facilement le texte de Word tout en conservant la structure et le formatage du document.
Fichiers texte(Fichier TXT): En plus de tous les formats ci-dessus, IronWord est même capable de traiter des fichiers de texte brut et d'extraire et de traiter du texte à partir d'un texte simple non formaté.
Extraction précise du texte
Le moteur d'extraction d'IronWord est capable d'extraire à coup sûr le contenu textuel, même s'il est enfoui dans des documents complexes avec des mises en page tout aussi sophistiquées, des polices intégrées ou un mélange de contenus tels que des images et des tableaux, etc. La bibliothèque conserve :
Formatage du texte: Gras, italique, souligné et tout autre aspect stylistique appliqué au texte.
Hiérarchie du document: En-têtes, paragraphes et listes pour mettre les choses en perspective et les rendre plus lisibles.
Traitement des données structurées et non structurées
IronWord sait traiter les données structurées et non structurées. Elle devra extraire :
Données structurées: Les documents qui contiennent des modèles de formatage prévisibles, tels que les formulaires et les contrats.
Données non structurées: En cas de mise en page de texte, de rapports ou d'articles imprévisibles.
Il s'est avéré être l'un des outils les plus utiles pour l'exploration de données, la recherche d'informations et les tâches de classification, car il peut traiter une grande variété de contenus.
Évolutivité pour les gros volumes
IronWord est conçu pour traiter des volumes de documents assez facilement avec une grande évolutivité concernant les applications d'entreprise. Cela signifie, par exemple, que le traducteur devra travailler efficacement avec un très grand nombre de documents dans les flux suivants :
**Il s'agit de traiter plusieurs documents à la fois.
Fichiers lourds: Il n'y a pas de dégradation lorsque la taille des documents est importante.
Intégration transparente avec les langages de programmation
IronWord peut s'intégrer de manière transparente dans les environnements de développement, notamment Python grâce à des API faciles que les développeurs peuvent ajouter à leurs flux de travail sans problème. Elle permet :
Importation d'IronWord dans les applications Python: Les développeurs peuvent utiliser les fonctions au sein des scripts Python directement, pour des exécutions sans accroc.
Interopérabilité inter-langues: En plus d'être génial pour l'utilisation de Python, IronWord est tout aussi génial pour d'autres langues, et constitue donc un excellent changement inter-langues à travers différentes piles technologiques.
Cette facilité d'intégration permet de réduire le temps et les efforts consacrés aux activités de développement et de se concentrer davantage sur la fonctionnalité que sur l'infrastructure.
Haute performance et rapidité
L'IronWord bénéficie d'un réglage des performances, et l'on constate une amélioration de la vitesse d'extraction du texte des documents volumineux. Cela peut s'avérer très important dans plusieurs applications en temps réel qui nécessitent une exécution rapide pour lire le texte. La bibliothèque peut :
**La traduction doit rester professionnelle et préserver l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement.
**La traduction doit rester professionnelle et préserver l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement.
Prise en charge de l'OCR en option
Le document contient des images. IronWord peut être utilisé en conjonction avec les technologies de reconnaissance optique de caractères (OCR) pour offrir au lecteur ce qui suit :
Documents numérisés: Extraire le texte d'images, de PDF numérisés ou de tout autre format impliquant des images.
Prise en charge multilingue: Être capable de reconnaître et d'imprimer du texte dans les langues prises en charge par l'OCR.
Préservation des métadonnées
Le texte n'est pas la seule chose qu'IronWord extrait. En outre, elle préserve les métadonnées du document, telles que :
Les versions des documents et toute autre information utile à des fins de conformité ou d'archivage.
Ceci est très utile dans un système de gestion de documents dont les métadonnées sont aussi importantes que le contenu.
Création d'un nouveau projet dans Visual Studio
Pour lancer l'application Visual Studio, choisissez Fichier dans le menu Fichier. Une fois que vous avez choisi "Nouveau projet", sélectionnez "Console App"
Saisissez maintenant le nom du projet .NET dans le champ de texte donné après avoir sélectionné l'emplacement du fichier et enregistrez-le. Ensuite, comme vous pouvez le voir dans l'exemple suivant, cliquez sur le bouton Créer et sélectionnez le .NET Framework requis.
La structure du projet Visual Studio varie en fonction de l'application sélectionnée. Pour mettre en œuvre ou exécuter l'application et saisir le code, consultez le fichier Program.cs. Vous pouvez utiliser l'application Console, Windows ou Online.
Le code peut ensuite être testé et la bibliothèque ajoutée.
Installer la bibliothèque IronWord
Utilisation de l'outil Visual Studio Dans le menu Outils, choisissez NuGet Package Manager. Pour afficher la console du terminal de gestion des paquets, naviguez jusqu'à l'interface du gestionnaire de paquets.
Install-Package Ironword
Une fois téléchargé et installé, le paquet peut être utilisé pour extraire du texte dans le projet en cours.
Une autre tactique consiste à utiliser la méthode du gestionnaire de paquets. L'installation directe dans la solution est possible grâce à l'option NuGet Package Manager de Visual Studio. Le graphique suivant illustre comment accéder au gestionnaire de paquets.
Pour localiser les packages, utilisez le champ de recherche sur le site web de NuGet. Il vous suffit de rechercher "IronWord" à l'aide du gestionnaire de paquets, comme l'illustre la capture d'écran ci-dessous.
Le graphique ci-joint présente une liste de résultats de recherche connexes. Veuillez procéder à ces ajustements afin que le logiciel puisse être installé sur votre ordinateur.
Extraire le texte d'un document Word
Pour extraire du texte d'un document à l'aide d'IronWord, procédez comme suit . L'exemple de code ci-dessous décrit comment extraire le texte d'un document Word(.docx) en utilisant la bibliothèque IronWord en C#.
using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
{
Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
}
}
Console.ReadKey();
using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
{
Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
}
}
Console.ReadKey();
Imports IronWord
IronWord.License.LicenseKey = "Licence key here"
Dim docx1 = New WordDocument("D:\C# Projects\ConsoleApp\ConsoleApp\File\existing.docx")
Dim paragrapbobj = docx1.Paragraphs
For i As Integer = 0 To paragrapbobj.Count - 1
Dim j As Integer=0
Do While j< paragrapbobj(i).Texts.Count
Console.WriteLine(paragrapbobj(i).Texts(j).Text.ToString())
j += 1
Loop
Next i
Console.ReadKey()
$vbLabelText $csharpLabel
Initialise la clé de licence pour IronWord, dans cet exemple en la définissant comme une chaîne vide ou éventuellement une version d'essai. Ouvre un document situé à ce chemin qui existe déjà au format .docx en instanciant un objet document Word. Une fois le nouveau document chargé, le code accède à tous les paragraphes contenus dans le fichier en utilisant la propriété DOCX ou doc.Paragraphs.
Elle utilise une boucle imbriquée pour le processus itératif de ces outils de développementparagraphes et leurs éléments textuels. La boucle extérieure fait le tour de chaque paragraphe, puis la boucle intérieure descend dans les éléments de texte contenus dans l'un des paragraphes. Elle saisit chaque morceau de texte en le déchirant en morceaux plus petits si le formatage diffère et le convertit en une chaîne. Ensuite, il imprime le texte extrait sur la console.
Enfin, Console.ReadKey() est appelé pour suspendre le programme jusqu'à ce que l'utilisateur effectue une saisie tout en fermant la fenêtre de l'application, ce qui permet à la sortie de s'afficher à l'écran avant de fermer la fenêtre de la console de l'application. Voici comment le contenu d'un document Word peut être extrait et imprimé de manière ordonnée.
Conclusion
IronWord est un outil d'extraction de texte très flexible et efficace qui peut être utilisé sur pratiquement n'importe quel format de document, bien qu'il soit très adapté à ceux qui utilisent des documents Word. Sa facilité d'utilisation, ainsi que ses capacités d'extraction de textes structurés, en font une solution conviviale pour les développeurs, sur laquelle on peut compter lorsque des documents doivent être récupérés automatiquement. La traduction doit rester professionnelle, en préservant l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement. Par conséquent, en intégrant simplement IronWord dans votre flux de travail, vous faciliterez considérablement la plupart des tâches liées à l'analyse des documents, à l'extraction et au traitement des données, et vous améliorerez la productivité et la précision du traitement de volumes massifs de texte.
Le prix de départ d'IronWord est de 599 dollars. Les utilisateurs peuvent également payer un abonnement unique d'un an en échange d'une assistance technique et de mises à jour logicielles. IronWord est proposé à titre onéreux, ce qui interdit toute distribution gratuite. Veuillez vous référer à la licencepage d'IronWord pour obtenir des détails plus précis sur les tarifs. Pour en savoir plus sur les autres produits d'Iron Software, consultez le site Web de l'entreprisepage des produits.
Jordi maîtrise parfaitement Python, C# et C++. Lorsqu'il ne met pas à profit ses compétences chez Iron Software, il se consacre à la programmation de jeux. Partageant des responsabilités en matière de tests de produits, de développement de produits et de recherche, Jordi apporte une valeur ajoutée considérable à l'amélioration continue des produits. Cette expérience variée le stimule et l'engage, et il dit que c'est l'un des aspects qu'il préfère dans son travail chez Iron Software. Jordi a grandi à Miami, en Floride, et a étudié l'informatique et les statistiques à l'université de Floride.
< PRÉCÉDENT Comment ajouter un filigrane à un fichier Word en C#
SUIVANT > Comment créer un document Word à partir d'un modèle en utilisant C#
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucune obligation de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre gratuit Démonstration en direct
Fiable par plus de 2 millions d'ingénieurs dans le monde entier