擷取文字
在文件上擷取大量文字時,過程可能既低效又耗時,尤其是在處理表格和大量段落時。然而,IronWord 的 ExtractText 方法是一個省時的解決方案。 它使開發人員能夠輕鬆提取文件中特定數量的所有文本,從而無需額外的循環,並簡化對Text屬性的存取。 這種方法可以確保開發人員有效率地工作並節省寶貴時間。
在這個範例中,我們將展示幾種使用 ExtractText 方法的方式,並提升您從文件中擷取文字的效率。
從 Docx 檔案中提取文字的實用方法
使用 IronWord;。WordDocument doc = new WordDocument("multi-paragraph.docx");Console.WriteLine(doc.ExtractText());Console.WriteLine(doc.Paragraphs[0].ExtractText());Console.WriteLine(doc.Paragraphs.Last().ExtractText());
提取文字
使用 IronWord 庫,從 Word 文件中提取文字是一個簡單的過程。 我們首先匯入函式庫,並初始化 WordDocument 類。 這一步驟讓我們可以載入一個有段落的現有文件。然後,我們呼叫 ExtractText 方法,並將文件的全部文字列印到控制台。
提取特定文本
上面的範例擷取了整個文件的文字,但使用 IronWord 函式庫,您可以完全控制擷取的過程。 如果您只想取得特定部分或段落,可以使用WordDocument中的Paragraphs屬性傳回一個Paragraphs陣列。 作為通用列表,您可以根據需要操作此數組,既可以透過像上面那樣使用doc.Paragraphs[0]呼叫索引,也可以使用 C# 集合的內建數組方法。
在存取 Paragraphs 的索引時,我們只會返回並擷取文件第一段的文字,並將其列印到控制台。 隨後,我們還將其呼叫Paragraphs數組的Last函數,以便僅從文件中傳回和提取最後一個段落的文字。





