擷取文字

在文件上擷取大量文字時,過程可能既低效又耗時,尤其是在處理表格和大量段落時。然而,IronWord 的 ExtractText 方法是一個省時的解決方案。 它使開發人員能夠輕鬆提取文件中特定數量的所有文本,從而無需額外的循環,並簡化對Text屬性的存取。 這種方法可以確保開發人員有效率地工作並節省寶貴時間。

在這個範例中,我們將展示幾種使用 ExtractText 方法的方式,並提升您從文件中擷取文字的效率。

從 Docx 檔案中提取文字的實用方法

  • 使用 IronWord;
  • WordDocument doc = new WordDocument("multi-paragraph.docx");
  • Console.WriteLine(doc.ExtractText());
  • Console.WriteLine(doc.Paragraphs[0].ExtractText());
  • Console.WriteLine(doc.Paragraphs.Last().ExtractText());

提取文字

使用 IronWord 庫,從 Word 文件中提取文字是一個簡單的過程。 我們首先匯入函式庫,並初始化 WordDocument 類。 這一步驟讓我們可以載入一個有段落的現有文件。然後,我們呼叫 ExtractText 方法,並將文件的全部文字列印到控制台。

提取特定文本

上面的範例擷取了整個文件的文字,但使用 IronWord 函式庫,您可以完全控制擷取的過程。 如果您只想取得特定部分或段落,可以使用WordDocument中的Paragraphs屬性傳回一個Paragraphs陣列。 作為通用列表,您可以根據需要操作此數組,既可以透過像上面那樣使用doc.Paragraphs[0]呼叫索引,也可以使用 C# 集合的內建數組方法。

在存取 Paragraphs 的索引時,我們只會返回並擷取文件第一段的文字,並將其列印到控制台。 隨後,我們還將其呼叫Paragraphs數組的Last函數,以便僅從文件中傳回和提取最後一個段落的文字。

探索 IronWord API 的高階文字擷取功能

準備好開始了嗎?
Nuget 下載 28,054 | 版本: 2025.12 剛發表