using IronWord; using System.Linq; using System; // Load docx WordDocument doc = new WordDocument("multi-paragraph.docx"); // Returns text from the entire file Console.WriteLine(doc.ExtractText()); // Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs[0].ExtractText()); // Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText());

テキストを抽出

ドキュメントから大量のテキストを抽出する場合、特に表や大量の段落を扱う場合は、非効率で時間のかかる処理になりがちです。しかし、IronWordのExtractTextメソッドは、時間を節約できるソリューションです。これにより、開発者はドキュメント内の特定の数のテキストをすべて簡単に抽出できるようになり、追加のループの必要性がなくなり、Text プロパティへのアクセスが簡素化されます。このメソッドは、開発者が効率的に作業し、貴重な時間を節約できることを保証します。

この例では、ExtractText メソッドを使用して、ドキュメントからテキストを取得する際の効率を高めるいくつかの方法を紹介します。

Docxからテキストを抽出するための便利な方法

using IronWord;
WordDocument doc = new WordDocument("multi-paragraph.docx");
Console.WriteLine(doc.ExtractText());
Console.WriteLine(doc.Paragraphs[0].ExtractText());
Console.WriteLine(doc.Paragraphs.Last().ExtractText());

テキストの抽出

IronWordライブラリを使用して、Wordドキュメントからテキストを抽出することは、簡単なプロセスです。まず、ライブラリをインポートし、WordDocument クラスを初期化します。このステップでは、段落を含む既存のドキュメントを読み込み、ExtractText メソッドを呼び出して、ドキュメントのテキスト全体をコンソールに出力します。

特定のテキストを抽出

上の例では文書全体のテキストを抽出していますが、IronWordライブラリを使えば、抽出プロセスを完全にコントロールすることができます。特定の部分または段落のみが必要な場合は、WordDocument の Paragraphs プロパティを使用して、Paragraphs の配列を返すことができます。汎用リストとして、この配列は、上記の doc.Paragraphs[0] で示したようにインデックスを呼び出すか、C# コレクションの組み込み配列メソッドを使用することによって、要件に応じて操作できます。

Paragraphs のインデックスにアクセスすると、ドキュメントの最初の段落からテキストのみが返され、抽出されてコンソールに出力されます。続いて、Paragraphs 配列で Last を呼び出して、ドキュメントから最後の段落のテキストのみを返して抽出します。

高度なテキスト抽出のためのIronWord APIを調べる