Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
En général, la tâche principale dans les applications de traitement de documents, d'extraction de données ou d'analyse de texte est l'extraction de texte à partir de fichiers de documents Word. Lors du développement d'une application C#, les développeurs utilisent des bibliothèques telles qu'IronWord qui permettent de travailler avec des fichiers au format .docx et d'accéder au texte à l'intérieur de l'instance de document à partir de celle-ci. L'utilisation de ces bibliothèques permet d'automatiser la manière dont le contenu est récupéré à partir de la base de données duDocuments Word la traduction doit rester professionnelle, en préservant la précision technique tout en expliquant les caractéristiques et les avantages de ces outils de développement.
En utilisant une bibliothèque telle qu'IronWord, on peut extraire du texte de n'importe quelle instance de document Word ; il suffit de charger l'objet document, d'ouvrir des paragraphes ou des sections, puis de récupérer le texte souhaité tout en conservant sa mise en page d'origine. Ces fonctionnalités s'avéreront d'une utilité exceptionnelle dans les domaines juridique, médical et financier, où le traitement des documents s'inscrit normalement dans le cadre des flux de travail. C# est sans aucun doute utilisé pour développer des applications extrêmement évolutives et efficaces qui extraient du texte à partir de fichiers Word. Les développeurs peuvent l'associer à des systèmes ou des applications plus vastes.
Installez la bibliothèque IronWord via NuGet dans votre projet C#.
Ajoutez l'utilisation d'IronWord, en haut de votre fichier C# pour extraire le texte de Word.
Définissez votre clé de licence.
Chargez le document Word existant.
Accédez aux paragraphes à l'aide de la méthode des paragraphes.
Bouclez les paragraphes et les éléments de texte à l'aide de boucles foreach.
IronWord est une force puissante dans la récupération de texte et garantit que tous les types de fichiers, tels que PDF, Word, fichiers txt, etc. sont récupérés facilement. Elle est conçue avec précision et rapidité pour une extraction rapide dans le texte requis, structuré ou non, tout en conservant le reste du format original du document. IronWord est également utilisé pour l'analyse de documents, l'extraction de données et l'indexation automatique du contenu.
Ce logiciel prend en charge la quasi-totalité des types de fichiers disponibles afin d'assurer une intégration harmonieuse avec les applications. Il est donc idéal pour l'automatisation des activités et le traitement de gros volumes de documents. L'évolutivité des bibliothèques ainsi conçues permettra de traiter facilement des volumes de documents, ce qui s'avère être un atout important, en particulier pour les entreprises qui travaillent avec l'extraction de données en masse.
IronWord est également entièrement compatible avec C# et d'autres langages de programmation, de sorte qu'il répond aux besoins de la plupart des développeurs et des organisations qui recherchent le moyen le plus fluide de rationaliser leurs flux de travail documentaires.
IronWord accepte les fichiers dans un large éventail de formats de documents. Il s'agit notamment de
Le moteur d'extraction d'IronWord est capable d'extraire à coup sûr le contenu textuel, même s'il est enfoui dans des documents complexes avec des mises en page tout aussi sophistiquées, des polices intégrées ou un mélange de contenus tels que des images et des tableaux, etc. La bibliothèque conserve :
IronWord sait traiter les données structurées et non structurées. Elle devra extraire :
Données non structurées: En cas de mise en page de texte, de rapports ou d'articles imprévisibles.
Il s'est avéré être l'un des outils les plus utiles pour l'exploration de données, la recherche d'informations et les tâches de classification, car il peut traiter une grande variété de contenus.
IronWord est conçu pour traiter des volumes de documents assez facilement avec une grande évolutivité concernant les applications d'entreprise. Cela signifie, par exemple, que le traducteur devra travailler efficacement avec un très grand nombre de documents dans les flux suivants :
IronWord peut s'intégrer de manière transparente dans les environnements de développement, notamment Python grâce à des API faciles que les développeurs peuvent ajouter à leurs flux de travail sans problème. Elle permet :
Interopérabilité inter-langues: En plus d'être génial pour l'utilisation de Python, IronWord est tout aussi génial pour d'autres langues, et constitue donc un excellent changement inter-langues à travers différentes piles technologiques.
Cette facilité d'intégration permet de réduire le temps et les efforts consacrés aux activités de développement et de se concentrer davantage sur la fonctionnalité que sur l'infrastructure.
L'IronWord bénéficie d'un réglage des performances, et l'on constate une amélioration de la vitesse d'extraction du texte des documents volumineux. Cela peut s'avérer très important dans plusieurs applications en temps réel qui nécessitent une exécution rapide pour lire le texte. La bibliothèque peut :
Le document contient des images. IronWord peut être utilisé en conjonction avec les technologies de reconnaissance optique de caractères (OCR) pour offrir au lecteur ce qui suit :
Le texte n'est pas la seule chose qu'IronWord extrait. En outre, elle préserve les métadonnées du document, telles que :
Pour lancer l'application Visual Studio, choisissez Fichier dans le menu Fichier. Une fois que vous avez choisi "Nouveau projet", sélectionnez "Console App"
Saisissez maintenant le nom du projet .NET dans le champ de texte donné après avoir sélectionné l'emplacement du fichier et enregistrez-le. Ensuite, comme vous pouvez le voir dans l'exemple suivant, cliquez sur le bouton Créer et sélectionnez le .NET Framework requis.
La structure du projet Visual Studio varie en fonction de l'application sélectionnée. Pour mettre en œuvre ou exécuter l'application et saisir le code, consultez le fichier Program.cs. Vous pouvez utiliser l'application Console, Windows ou Online.
Le code peut ensuite être testé et la bibliothèque ajoutée.
Utilisation de l'outil Visual Studio Dans le menu Outils, choisissez NuGet Package Manager. Pour afficher la console du terminal de gestion des paquets, naviguez jusqu'à l'interface du gestionnaire de paquets.
Install-Package Ironword
Install-Package Ironword
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package Ironword
Une fois téléchargé et installé, le paquet peut être utilisé pour extraire du texte dans le projet en cours.
Une autre tactique consiste à utiliser la méthode du gestionnaire de paquets. L'installation directe dans la solution est possible grâce à l'option NuGet Package Manager de Visual Studio. Le graphique suivant illustre comment accéder au gestionnaire de paquets.
Pour localiser les packages, utilisez le champ de recherche sur le site web de NuGet. Il vous suffit de rechercher "IronWord" à l'aide du gestionnaire de paquets, comme l'illustre la capture d'écran ci-dessous.
Le graphique ci-joint présente une liste de résultats de recherche connexes. Veuillez procéder à ces ajustements afin que le logiciel puisse être installé sur votre ordinateur.
Pour extraire du texte d'un document à l'aide d'IronWord, procédez comme suit . L'exemple de code ci-dessous décrit comment extraire le texte d'un document Word(.docx) en utilisant la bibliothèque IronWord en C#.
using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
{
Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
}
}
Console.ReadKey();
using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
{
Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
}
}
Console.ReadKey();
Imports IronWord
IronWord.License.LicenseKey = "Licence key here"
Dim docx1 = New WordDocument("D:\C# Projects\ConsoleApp\ConsoleApp\File\existing.docx")
Dim paragrapbobj = docx1.Paragraphs
For i As Integer = 0 To paragrapbobj.Count - 1
Dim j As Integer=0
Do While j< paragrapbobj(i).Texts.Count
Console.WriteLine(paragrapbobj(i).Texts(j).Text.ToString())
j += 1
Loop
Next i
Console.ReadKey()
Initialise la clé de licence pour IronWord, dans cet exemple en la définissant comme une chaîne vide ou éventuellement une version d'essai. Ouvre un document situé à ce chemin qui existe déjà au format .docx en instanciant un objet document Word. Une fois le nouveau document chargé, le code accède à tous les paragraphes contenus dans le fichier en utilisant la propriété DOCX ou doc.Paragraphs.
Elle utilise une boucle imbriquée pour le processus itératif de ces outils de développementparagraphes et leurs éléments textuels. La boucle extérieure fait le tour de chaque paragraphe, puis la boucle intérieure descend dans les éléments de texte contenus dans l'un des paragraphes. Elle saisit chaque morceau de texte en le déchirant en morceaux plus petits si le formatage diffère et le convertit en une chaîne. Ensuite, il imprime le texte extrait sur la console.
Enfin, Console.ReadKey() est appelé pour suspendre le programme jusqu'à ce que l'utilisateur effectue une saisie tout en fermant la fenêtre de l'application, ce qui permet à la sortie de s'afficher à l'écran avant de fermer la fenêtre de la console de l'application. Voici comment le contenu d'un document Word peut être extrait et imprimé de manière ordonnée.
IronWord est un outil d'extraction de texte très flexible et efficace qui peut être utilisé sur pratiquement n'importe quel format de document, bien qu'il soit très adapté à ceux qui utilisent des documents Word. Sa facilité d'utilisation, ainsi que ses capacités d'extraction de textes structurés, en font une solution conviviale pour les développeurs, sur laquelle on peut compter lorsque des documents doivent être récupérés automatiquement. La traduction doit rester professionnelle, en préservant l'exactitude technique tout en expliquant les caractéristiques et les avantages de ces outils de développement. Par conséquent, en intégrant simplement IronWord dans votre flux de travail, vous faciliterez considérablement la plupart des tâches liées à l'analyse des documents, à l'extraction et au traitement des données, et vous améliorerez la productivité et la précision du traitement de volumes massifs de texte.
Le prix de départ d'IronWord est de 599 dollars. Les utilisateurs peuvent également payer un abonnement unique d'un an en échange d'une assistance technique et de mises à jour logicielles. IronWord est proposé à titre onéreux, ce qui interdit toute distribution gratuite. Veuillez vous référer à la licencepage d'IronWord pour obtenir des détails plus précis sur les tarifs. Pour en savoir plus sur les autres produits d'Iron Software, consultez le site Web de l'entreprisepage des produits.
9 produits de l'API .NET pour vos documents de bureau