using IronWord; using System.Linq; using System; // Load docx WordDocument doc = new WordDocument("multi-paragraph.docx"); // Returns text from the entire file Console.WriteLine(doc.ExtractText()); // Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs[0].ExtractText()); // Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Imports IronWord Imports System.Linq Imports System ' Load docx Private doc As New WordDocument("multi-paragraph.docx") ' Returns text from the entire file Console.WriteLine(doc.ExtractText()) ' Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs(0).ExtractText()) ' Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText())

テキストを抽出

文書中の大量のテキストを抽出する際、特に表や大量の段落を扱う場合、プロセスが非効率で時間がかかることがあります。しかし、IronWordのExtractTextメソッドは、時間を節約するソリューションです。これにより、開発者は特定の数のテキストを文書内で容易に抽出でき、追加のループの必要を排除し、Textプロパティへのアクセスを簡素化します。このメソッドは、開発者が効率的に作業し、貴重な時間を節約できることを保証します。

この例では、ExtractTextメソッドを使用するいくつかの方法を紹介し、文書からテキストを取得する際の効率を向上させます。

Docxからテキストを抽出するための便利な方法

using IronWord;
WordDocument doc = new WordDocument("multi-paragraph.docx");
Console.WriteLine(doc.ExtractText());
Console.WriteLine(doc.Paragraphs[0].ExtractText());
Console.WriteLine(doc.Paragraphs.Last().ExtractText());

テキストの抽出

IronWordライブラリを使用して、Wordドキュメントからテキストを抽出することは、簡単なプロセスです。まず、ライブラリをインポートし、WordDocumentクラスを初期化します。このステップにより、段落が含まれる既存の文書を読み込むことができます。その後、ExtractTextメソッドを呼び出し、文書全体のテキストをコンソールに出力します。

特定のテキストを抽出

上の例では文書全体のテキストを抽出していますが、IronWordライブラリを使えば、抽出プロセスを完全にコントロールすることができます。特定の部分や段落のみを希望する場合は、Paragraphsの配列を返すことができます。汎用リストとして、この配列は要求に応じて操作可能で、上記で示したようにdoc.Paragraphs[0]を使用してインデックスを呼び出すか、C#コレクション用の組み込み配列メソッドを使用します。

Paragraphsのインデックスにアクセスする際、文書の最初の段落からのみテキストを返して抽出し、コンソールに出力します。その後、文書の最後の段落のみを返して抽出するためにParagraphs配列で呼び出します。

高度なテキスト抽出のためのIronWord APIを調べる