使用 IronWord 透過 C# 從 DOCX 中提取文本

This article was translated from English: Does it need improvement?
Translated
View the article in English

從 DOCX 文件中提取文字通常是文件處理和資料分析的重要需求。 IronWord 提供了一種簡單的方法來讀取和提取現有 DOCX 檔案中的文字內容,確保以程式設計方式存取段落、表格和其他文字元素。

本指南重點介紹ExtractText()方法及其從多個文件元件中提取文字的功能。

開始使用 IronWord

立即開始在您的項目中使用 IronWord 並免費試用。

第一步:
green arrow pointer


文字擷取範例

ExtractText()方法從整個 Word 文件中檢索文字內容。 在這個例子中,實例化了一個新的文檔對象,添加了範例文本,呼叫了ExtractText()方法,並將結果顯示在控制台中。

:path=/static-assets/word/content-code-examples/how-to/extract-text-simple.cs
using IronWord;

// Instantiate a new DOCX file
WordDocument doc = new WordDocument();

// Add text
doc.AddText("Hello, World!");

// Print extracted text from the document to the console
Console.WriteLine(doc.ExtractText());
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

輸出

基本文字擷取的程式碼範例

控制台日誌

控制台輸出顯示提取的文字

從段落中提取文本

為了更好地控制,您可以從特定段落中提取文本,而不是從整個文件中提取。 透過存取Paragraphs集合,您可以定位並處理任何部分。 在這個例子中,我們將從第一段和最後一段中提取文本,將它們合併,並將結果保存到 .txt 檔案中。

:path=/static-assets/word/content-code-examples/how-to/extract-text-paragraphs.cs
using IronWord;
using System.IO;

// Load an existing DOCX file
WordDocument doc = new WordDocument("document.docx");

// Extract text and assign variables
string firstParagraph = doc.Paragraphs[0].ExtractText();
string lastParagraph = doc.Paragraphs.Last().ExtractText();

// Combine the texts
string newText = firstParagraph + " " + lastParagraph;

// Export the combined text as a new .txt file
File.WriteAllText("output.txt", newText);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

第一段

第一段擷取結果

最後一段

最後一段擷取結果

文字檔案輸出

文字檔案中的合併文字輸出

上面的螢幕截圖顯示了第一個段落的提取、最後一個段落的提取,以及保存到文字檔案中的組合輸出。

從表格中提取文本

表格通常包含需要擷取進行處理或分析的結構化資料。 IronWord 讓您可以透過瀏覽行和儲存格來存取表格資料。 在這個例子中,我們載入一個包含 API 統計表的文檔,並從第 2 行第 4 列提取一個特定的單元格值。

:path=/static-assets/word/content-code-examples/how-to/extract-text-table.cs
using IronWord;

// Load the API statistics document
WordDocument apiStatsDoc = new WordDocument("api-statistics.docx");

// Extract text from the 1st table, 4th column and 2nd row
string extractedValue = apiStatsDoc.Tables[0].Rows[2].Cells[3].ExtractText();

// Print extracted value
Console.WriteLine($"Target success rate: {extractedValue}");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

範例表

Word 文件中的 API 統計資料表

控制台日誌

在控制台中提取表格單元格值

常見問題解答

IronWord 從 DOCX 檔案擷取文字的主要方法是什麼?

使用 IronWord 從 DOCX 檔案擷取文字的主要方法是「ExtractText()」方法,此方法可讓您從各種文件元素(如段落和表格)中擷取文字內容。

如何使用 IronWord 擷取特定段落的文字?

您可以透過存取 IronWord 中的「Paragraphs」集合,從特定段落中抽取文字。這可讓您針對所需的任何段落進行處理,提供對文字擷取過程更多的控制。

是否可以使用 IronWord 從 DOCX 文件的表格中提取資料?

是的,IronWord 允許您透過瀏覽行和儲存格從表格中擷取資料,讓您輕鬆存取結構化資料進行處理或分析。

我可以使用 IronWord 將擷取的文字匯出成檔案嗎?

是的,使用 IronWord 擷取文字後,您可以進一步處理,並匯出成各種格式,例如 .txt 檔案,以便儲存或進一步使用。

開始使用 IronWord 進行文字擷取的步驟為何?

若要開始使用 IronWord 進行文字擷取,請下載 C# 函式庫,建立新的 Word 文件,使用 `ExtractText()` 方法存取並擷取文字內容,然後視需要處理或匯出擷取的文字。

IronWord 是否支援從整個 DOCX 文件中萃取資料?

是的,IronWord 支持从整个 DOCX 文档中提取数据,允许您使用 `ExtractText()` 方法检索所有文本内容,包括段落和表格。

IronWord 如何處理 Word 文件首尾段落的文字擷取?

IronWord 允許您透過 `Paragraphs` 集合存取特定段落,並根據需要處理文字,從中擷取文字,包括首段和尾段。

有沒有辦法在 IronWord 中看到擷取文字的控制台輸出?

是的,IronWord 提供在控制台中顯示擷取文字的功能,讓您可以在擷取過程中直接驗證輸出。

如何使用 IronWord 從 DOCX 檔案的表格中提取特定的單元格值?

IronWord 可讓您透過瀏覽行與列的方式,從表格中擷取特定的儲存格數值,讓您有可能從表格中的任何儲存格瞄準並擷取資料。

IronWord 可以從 DOCX 檔案中萃取哪些文字元素?

IronWord 可以從 DOCX 檔案中萃取各種文字元素,包括段落、表格和其他文字元件,提供全面的文字萃取功能。

艾哈邁德·索海爾
全栈开发者

Ahmad 是一位全端開發人員,精通 C#、Python 和 Web 技術。他對建立可擴展的軟體解決方案有著濃厚的興趣,並樂於探索如何在實際應用中實現設計與功能的完美結合。

在加入 Iron Software 團隊之前,Ahmad 曾從事自動化專案和 API 整合工作,專注於提高效能和開發者體驗。

在空閒時間,他喜歡嘗試 UI/UX 設計理念,為開源工具做出貢獻,偶爾還會涉足技術寫作和文件編寫,使複雜的主題更容易理解。

準備好開始了嗎?
Nuget 下載 27,129 | Version: 2025.11 剛發表