提取文本

在从文档中提取大量文本时,该过程往往效率低下且耗时,尤其在处理表格和大量段落时。然而,IronWord 的 ExtractText 方法提供了一种节省时间的解决方案。 它使开发人员能够轻松提取文档中指定数量的文本,从而无需额外的循环,并简化了对 Text 属性的访问。 这种方法可以确保开发人员高效工作并节省宝贵时间。

在本示例中,我们将展示几种使用 ExtractText 方法的方式,以提升您从文档中提取文本的效率。

从 Docx 文件中提取文本的实用方法

  • using IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

提取文本

使用 IronWord 库,从 Word 文档中提取文本是一个简单的过程。 我们首先导入该库并初始化 WordDocument 类。 此步骤允许我们加载一个包含段落的现有文档。随后,我们调用 ExtractText 方法,并将文档的全部文本打印到控制台。

提取特定文本

上面的示例提取了整个文档的文本,但使用 IronWord 库,您可以完全控制提取过程。 若您仅需特定部分或段落,可在 WordDocument 中使用 Paragraphs 属性,以返回 Paragraphs 的数组。 作为通用列表,该数组可根据您的需求进行操作,既可以通过如上所示使用 doc.Paragraphs[0] 调用索引,也可以使用 C# 集合的内置数组方法。

在访问 Paragraphs 的索引时,我们仅返回并提取文档首段的文本,并将其 PRINT 到控制台。 随后,我们还在 Paragraphs 数组中调用 Last,以返回并仅从文档中提取最后一段的文本。

探索 IronWord API 的高级文本提取功能

准备开始了吗?
Nuget 下载 44,829 | 版本: 2026.5 just released
Still Scrolling Icon

还在滚动吗?

想快速获得证据? PM > Install-Package IronWord
运行示例 观看您的数据变成 Word 文档。