テキストを抽出

ドキュメントから大量のテキストを抽出する場合、特に表や大量の段落を扱う際には、そのプロセスが非効率的で時間がかかることがあります。しかし、IronWordのExtractTextメソッドは、時間を節約できるソリューションです。 これにより、開発者はドキュメント内の特定のテキストをすべて簡単に抽出できるようになり、追加のループが不要になるほか、Textプロパティへのアクセスも簡素化されます。 このメソッドは、開発者が効率的に作業し、貴重な時間を節約できることを保証します。

この例では、ExtractText メソッドのいくつかの活用方法を紹介し、ドキュメントからテキストを取得する際の効率向上を図ります。

Docxからテキストを抽出するための便利な方法

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

テキストの抽出

IronWordライブラリを使用して、Wordドキュメントからテキストを抽出することは、簡単なプロセスです。 まず、ライブラリをインポートし、WordDocumentクラスを初期化します。 この手順により、段落を含む既存のドキュメントを読み込むことができます。その後、ExtractTextメソッドを呼び出し、ドキュメントのテキスト全体をコンソールに出力します。

特定のテキストを抽出

上の例では文書全体のテキストを抽出していますが、IronWordライブラリを使えば、抽出プロセスを完全にコントロールすることができます。 特定の部分や段落のみが必要な場合は、Paragraphsの配列を返すことができます。 この配列は汎用的なリストであるため、上記のように doc.Paragraphs[0] を使用してインデックスを参照するか、C# コレクションの組み込み配列メソッドを使用することで、要件に応じて操作することができます。

Paragraphsのインデックスにアクセスする際、ドキュメントの最初の段落のテキストのみを取得・抽出しており、それをコンソールにPRINTします。 続いて、Paragraphsを呼び出し、ドキュメントから最後の段落のテキストのみを抽出して返します。

高度なテキスト抽出のためのIronWord APIを調べる

準備はできましたか?
Nuget ダウンロード 44,829 | バージョン: 2026.5 just released
Still Scrolling Icon

まだスクロールしていますか?

すぐに証拠が欲しいですか? PM > Install-Package IronWord
サンプルを実行する あなたのデータが Word ドキュメントになるのを見る。