テキストを抽出
ドキュメントから大量のテキストを抽出する場合、特に表や大量の段落を扱う際には、そのプロセスが非効率的で時間がかかることがあります。しかし、IronWordのExtractTextメソッドは、時間を節約できるソリューションです。 これにより、開発者はドキュメント内の特定のテキストをすべて簡単に抽出できるようになり、追加のループが不要になるほか、Textプロパティへのアクセスも簡素化されます。 このメソッドは、開発者が効率的に作業し、貴重な時間を節約できることを保証します。
この例では、ExtractText メソッドのいくつかの活用方法を紹介し、ドキュメントからテキストを取得する際の効率向上を図ります。
Docxからテキストを抽出するための便利な方法
using IronWord;WordDocument doc = new WordDocument("multi-paragraph.docx");Console.WriteLine(doc.ExtractText());Console.WriteLine(doc.Paragraphs[0].ExtractText());Console.WriteLine(doc.Paragraphs.Last().ExtractText());
テキストの抽出
IronWordライブラリを使用して、Wordドキュメントからテキストを抽出することは、簡単なプロセスです。 まず、ライブラリをインポートし、WordDocumentクラスを初期化します。 この手順により、段落を含む既存のドキュメントを読み込むことができます。その後、ExtractTextメソッドを呼び出し、ドキュメントのテキスト全体をコンソールに出力します。
特定のテキストを抽出
上の例では文書全体のテキストを抽出していますが、IronWordライブラリを使えば、抽出プロセスを完全にコントロールすることができます。 特定の部分や段落のみが必要な場合は、Paragraphsの配列を返すことができます。 この配列は汎用的なリストであるため、上記のように doc.Paragraphs[0] を使用してインデックスを参照するか、C# コレクションの組み込み配列メソッドを使用することで、要件に応じて操作することができます。
Paragraphsのインデックスにアクセスする際、ドキュメントの最初の段落のテキストのみを取得・抽出しており、それをコンソールにPRINTします。 続いて、Paragraphsを呼び出し、ドキュメントから最後の段落のテキストのみを抽出して返します。

