テキストを抽出
文書上の大量のテキストを抽出する場合、特に表や大量の段落を扱う場合、そのプロセスは非効率的で時間がかかることがあります。しかし、IronWordのExtractTextメソッドは時間を節約するソリューションです。 これは、追加のループを必要とせずにドキュメント内の特定の数量のすべてのテキストを簡単に抽出し、Textプロパティへのアクセスを簡略化できるようにします。 このメソッドは、開発者が効率的に作業し、貴重な時間を節約できることを保証します。
この例では、ExtractText メソッドを使用するいくつかの方法を紹介し、ドキュメントからテキストを取得する際の効率を高めます。
Docxからテキストを抽出するための便利な方法
using IronWord;WordDocument doc = new WordDocument("multi-paragraph.docx");Console.WriteLine(doc.ExtractText());Console.WriteLine(doc.Paragraphs[0].ExtractText());Console.WriteLine(doc.Paragraphs.Last().ExtractText());
テキストの抽出
IronWordライブラリを使用して、Wordドキュメントからテキストを抽出することは、簡単なプロセスです。 ライブラリをインポートし、WordDocumentクラスを初期化することから始めます。 このステップでは、段落のある既存のドキュメントを読み込みます。次に、ExtractTextメソッドを呼び出し、ドキュメントのテキスト全体をコンソールに出力します。
特定のテキストを抽出
上の例では文書全体のテキストを抽出していますが、IronWordライブラリを使えば、抽出プロセスを完全にコントロールすることができます。 特定の部分や段落のみを抽出したい場合、WordDocumentのParagraphsプロパティを使用してParagraphsの配列を返すことができます。 この配列はジェネリックリストとして、上記のdoc.Paragraphs[0]のようにインデックスを呼び出すか、C#コレクション用の組み込み配列メソッドを使用して必要に応じて操作できます。
Paragraphsのインデックスにアクセスするときは、ドキュメントの最初の段落のテキストだけを返して抽出し、コンソールに出力します。 その後、Paragraphs配列でLastも呼び出して、ドキュメントの最後の段落のテキストのみを返して抽出します。





