跳過到頁腳內容
使用 IRONWORD

如何在 C# 中從 Word 中提取文本

通常,文件處理應用程式、資料擷取或文字分析的主要任務是從 Word 文件檔案中提取文字。 在開發 C# 應用程式時,開發人員使用IronWord等程式庫來協助處理 .docx 格式的文件並存取文件實例中的文字。 使用這些函式庫有助於自動從Word 文件中檢索內容,從而實現報告產生、資料探勘,甚至文件管理系統。

使用IronWord等庫,可以從任何 Word 文件實例中提取文字; 只需載入文件物件、開啟段落或章節,然後檢索所需的文本,同時保持其原始佈局即可。 這種功能在法律、醫療保健和金融領域將具有非凡的實用價值,因為在這些領域,文件處理通常是工作流程中不可或缺的一部分。 毫無疑問,C# 被用於開發極具可擴展性和高效性的應用程序,這些應用程式可以從 Word 文件中提取文字。 開發人員可以將其與更複雜的系統或應用程式結合使用。

How to Extract Text from Word in C

  1. 透過NuGet在您的 C# 專案中安裝IronWord函式庫。
  2. 在 C# 檔案的頂部新增 using IronWord;,以從 Word 中提取文字。
  3. 設定您的許可證密鑰。
  4. 載入現有的 Word 文件。
  5. 使用 Paragraphs 屬性存取段落。
  6. 使用迴圈遍歷段落和文字元素。 7.提取並顯示帶有Console的文字。

IronWord是什麼?

IronWord是一款功能強大的文字擷取工具,可確保輕鬆取得各種類型的文件,例如 PDF、Word 和 TXT 文件。 它以精準和快速的方式進行設計,能夠快速提取所需的文字(無論是結構化文字還是非結構化文字),同時保留文件其餘部分的原始格式。 IronWord也可用於提供文件分析、資料擷取和內容自動索引。

如何在 C# 中從 Word 文件中提取文字:圖 1 - IronWord

該工具支援幾乎所有可用的文件類型,以確保與應用程式的順利集成,因此非常適合業務自動化和大批量文件處理。 以這種方式設計的庫具有可擴展性,可以輕鬆處理大量文檔,這對於從事批量資料提取的企業來說是一項非常重要的優勢。

IronWord也完全相容於 C# 和其他程式語言,滿足希望簡化文件工作流程的開發人員和組織的需求。

IronWord的特點

支援多種文件格式

IronWord接受多種文件格式的文件,包括:

  • PDF:它可以解釋普通文字 PDF、嵌入字體的 PDF 以及基於向量的 PDF 中的文字。
  • Microsoft Word 文件 (DOCX):它可以輕鬆讀取 Word 文件中的文本,同時保持文件結構和格式不變。 *文字檔案 (TXT):此外, IronWord還處理純文字文件,從簡單文字中擷取和處理文字。

精確文字擷取

IronWord提取引擎能夠熟練地提取文字內容,即使文字內容隱藏在具有複雜頁面佈局、嵌入字體或圖片和表格等混合內容的複雜文件中。 圖書館保存了:

*文字格式:*套用於文字的樣式,例如粗體、斜體、底線和其他樣式。 文件層級:**標題、段落和列表,以保持組織性和可讀性。

處理結構化和非結構化數據

IronWord可以處理結構化資料和非結構化資料。 它可以提取:

*結構化資料:*具有可預測格式模式的文檔,例如表格和合約。 非結構化資料:**文字版面不可預測的文檔,例如報告或文章。

由於它能夠處理各種各樣的內容,因此在資料探勘、資訊檢索和分類等任務中已被證明非常有用。

大容量可擴充性

IronWord旨在有效處理大量文檔,為企業應用程式提供強大的可擴展性。 例如:

*文件批次處理:*一次處理多個文件。 處理大型文件:**處理大型文件時效能不會下降。

與程式語言的無縫集成

IronWord透過易於使用的 API 可無縫整合到開發環境(尤其是 Python 開發環境)中。這使得開發人員能夠:

*將IronWord匯入 Python 應用程式:*直接在 Python 腳本中使用IronWord函數。 跨語言互通性:**除了 Python 之外, IronWord還可以有效地用於其他語言,從而促進技術堆疊的互通性。

這種易於整合的特性使開發人員能夠專注於功能,而不是基礎設施。

高性能和速度

IronWord針對效能進行了最佳化,即使從大型文件中也能快速提取文本,這對於需要快速執行的即時應用程式至關重要。 圖書館提供:

*多執行緒支援:*增強並發提取過程。 記憶體佔用小:**處理過程中系統資源利用率高,可擴充性強,能夠處理大型資料集。

可選的 OCR 支持

對於包含影像的文檔, IronWord可以與 OCR 技術結合使用,以實現以下功能:

*處理掃描文件:*從影像、掃描的 PDF 或其他基於影像的格式中提取文字。 多語言支援:**識別並提取支援的 OCR 語言的文字。

元資料保存

除了擷取文字之外, IronWord還會保留文件中的元數據,例如:

*文件版本控制和合規資訊:*可用於合規或存檔目的。 文件管理系統:**元資料與內容同等重要。

在 Visual Studio 中建立新項目

若要啟動 Visual Studio 應用程序,請從"檔案"功能表中選擇"檔案",然後選擇"新專案",最後選擇"控制台應用程式"。

如何在 C# 中從 Word 中提取文字:圖 2 - 控制台應用程式

選擇.NET項目的位置後,在文字欄位中輸入項目名稱,然後按一下"建立"按鈕並選擇所需的.NET Framework。

如何在 C# 中從 Word 文件中提取文字:圖 3 - 專案配置

Visual Studio 專案結構會根據所選應用程式而有所不同。 若要實現或執行應用程式程式碼,請造訪 Program.cs 文件,該文件適用於控制台、視窗或線上應用程式。

如何在 C# 中從 Word 中提取文字:圖 4 - Target Framework

輸入程式碼後即可測試該程式庫。

安裝IronWord庫

從 Visual Studio 工具選單中,選擇NuGet套件管理器。 若要存取軟體包管理控制台,請導覽至軟體包管理器介面。

Install-Package IronWord

下載並安裝後,該軟體包即可用於正在進行的專案中的文字擷取。

如何在 C# 中從 Word 中提取文字:圖 5 - 安裝IronWord

套件管理器方法提供了另一種選擇,允許透過 Visual Studio 的NuGet套件管理器直接安裝到解決方案中。 下圖展示如何存取軟體套件管理器。

如何在 C# 中從 Word 中提取文字:圖 6 - NuGet套件管理器

使用NuGet網站上的搜尋欄位來尋找程式包。 使用軟體套件管理器搜尋"IronWord",如下圖所示。

如何在 C# 中從 Word 文件中提取文字:圖 7 - 搜尋IronWord

附圖顯示了相關的搜尋結果。 請進行以下調整,以便在您的電腦上安裝軟體。

從 Word 文件中提取文本

若要使用IronWord從文件中提取文本,請按照以下步驟操作。 下面的範例程式碼示範如何使用 C# 中的IronWord庫從 Word 文件 (.docx) 中擷取文字。

// Include necessary libraries
using IronWord;

// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";

// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");

// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;

// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
    for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
    {
        // Print each text element to the console
        Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
    }
}

// Wait for user input before closing the console
Console.ReadKey();
// Include necessary libraries
using IronWord;

// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";

// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");

// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;

// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
    for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
    {
        // Print each text element to the console
        Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
    }
}

// Wait for user input before closing the console
Console.ReadKey();
$vbLabelText   $csharpLabel

程式碼初始化IronWord的許可證金鑰,並從指定路徑載入 .docx 文檔,建立一個 WordDocument 物件。 文件載入後,它透過 Paragraphs 屬性存取所有段落。

如何在 C# 中從 Word 文件中提取文字:圖 8 - Word 文件範例

巢狀循環遍歷段落及其文字元素。 外層循環遍歷每個段落,而內層循環處理每個段落的文本元素。 文字元素在轉換為字串後會列印到控制台。

如何在 C# 中從 Word 文件中提取文字:圖 9 - 控制台輸出

Console.ReadKey() 暫停程式執行,允許輸出顯示,直到使用者輸入後才會關閉應用程式視窗。 這種方法可以有順序地提取和列印 Word 文件內容。

結論

IronWord是一款功能全面、高效的文字擷取工具,適用於各種文件格式,尤其適用於 Word 文件。 它用戶友好的 API 和結構化文字提取功能使其成為開發人員尋求自動文件內容檢索的可靠解決方案。 該工具在處理複雜文件時能夠保持格式,對於法律、企業級內容管理和其他應用來說非常有價值。 實作IronWord可以增強文件分析、資料擷取和處理任務,提高處理大量文字時的效率和準確性。

IronWord 的起價為 599 美元。用戶可以選擇一次性支付年費,即可獲得技術支援和軟體更新服務。 IronWord會產生費用,因此無法免費發放。 有關具體定價詳情,請參閱 IronWord 的授權頁面。 請造訪產品頁面,以了解Iron Software的其他產品。

常見問題解答

如何使用 C# 從 Word 文檔中提取文本?

您可以通過在 C# 文件中安裝 IronWord 庫 via NuGet,添加 using IronWord;,使用您的許可證密鑰初始化庫,加載 Word 文檔,並循環遍歷段落以提取和顯示文本來從 Word 文檔中提取文本。

IronWord 支持哪些文檔格式的文本提取?

IronWord 支持從各種文檔格式中提取文本,包括 Microsoft Word 文件(DOCX)、PDF 文件和純文本文件(TXT)。

IronWord 如何確保從 Word 文檔中準確提取文本?

IronWord 保持文本的原始佈局和格式,能夠高精度地從 Word 文檔中提取文本。它支持結構化和非結構化數據,使其非常適合生成報告和管理文檔。

IronWord 能否與 C# 以外的其他編程語言集成?

是的,IronWord 設計為無縫集成到其他編程語言中,如 Python,增強跨語言的互操作性,允許開發人員在各種環境中使用它。

IronWord 是否支持從含有圖像的掃描文件中提取文本?

IronWord 可以與 OCR 技術一起使用來處理掃描文件,允許從圖像中提取文本並支持多種語言,這增強了其在文檔處理任務中的多功能性。

IronWord 為 C# 開發人員提供的關鍵功能有哪些?

IronWord 提供諸如準確的文本提取、支持多種文檔格式、可擴展性、多線程支持、對圖像的選擇性 OCR 和與其他編程語言的無縫集成,使其在文檔分析和數據提取時非常高效。

如何在 C# 項目中安裝 IronWord?

要在 C# 項目中安裝 IronWord,請使用 Visual Studio 中的 NuGet 包管理器。搜索 'IronWord' 並將該包添加到您的項目中,即可開始從 Word 文檔中提取文本。

使用 IronWord 的定價模式是什麼?

IronWord 的價格從 $599 一次性年費訂閱開始,包含技術支持和軟件更新的訪問,確保您擁有最新的功能和修正。

IronWord 如何處理大量文檔的文本提取?

IronWord 經過性能優化,支持多線程等功能,能夠高效處理大量文檔,並具有良好的擴展性,適合企業級應用程序。

IronWord 在法律或醫療等行業的文檔處理中提供了哪些益處?

IronWord 支持從多種格式中提取文本,同時保持原始格式,提升文檔處理效率。其可擴展性和性能優化使其特別適合法律和醫療行業,這些行業中需要高效的文檔管理。

Jordi Bardia
軟體工程師
Jordi 在 Python、C# 和 C++ 上最得心應手,當他不在 Iron Software 展現技術時,便在做遊戲編程。在分担產品测测试,產品開發和研究的责任時,Jordi 為持续的產品改進增值。他说这种多样化的经验使他受到挑战并保持参与, 而这也是他与 Iron Software 中工作一大乐趣。Jordi 在佛罗里达州迈阿密长大,曾在佛罗里达大学学习计算机科学和统计学。

鋼鐵支援團隊

我們每週 5 天,每天 24 小時在線上。
聊天
電子郵件
打電話給我