テキストを抽出

ドキュメント上の大量のテキストを抽出する際、特にテーブルや多くの段落を扱う場合、プロセスは非効率で時間がかかることがあります。しかし、IronWordのExtractTextメソッドは時間を節約できるソリューションです。 これは、追加のループを必要とせずにドキュメント内の特定の数量のすべてのテキストを簡単に抽出し、Textプロパティへのアクセスを簡略化できるようにします。 このメソッドは、開発者が効率的に作業し、貴重な時間を節約できることを保証します。

この例では、ExtractTextメソッドを使用してドキュメントからテキストを取得する効率を高めるためのいくつかの方法を紹介します。

Docxからテキストを抽出するための便利な方法

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

テキストの抽出

IronWordライブラリを使用して、Wordドキュメントからテキストを抽出することは、簡単なプロセスです。 ライブラリをインポートし、WordDocumentクラスを初期化することから始めます。 このステップにより、段落のある既存のドキュメントを読み込むことができます。次にExtractTextメソッドを呼び出し、ドキュメントの全テキストをコンソールに出力します。

特定のテキストを抽出

上記の例はドキュメント全体のテキストを抽出しますが、IronWordライブラリを使用すると、抽出プロセスを完全に制御できます。 特定の部分や段落のみを抽出したい場合、WordDocumentParagraphsプロパティを使用してParagraphsの配列を返すことができます。 この配列はジェネリックリストとして、上記のdoc.Paragraphs[0]のようにインデックスを呼び出すか、C#コレクション用の組み込み配列メソッドを使用して必要に応じて操作できます。

Paragraphsのインデックスにアクセスする場合、最初の段落からテキストのみを返して抽出し、コンソールに出力します。 その後、Paragraphs配列でLastも呼び出して、ドキュメントの最後の段落のテキストのみを返して抽出します。

IronWord APIを探索して高度なテキスト抽出を行う

準備はいいですか?
Nuget ダウンロード 25,807 | バージョン: 2025.11 ただ今リリースされました