如何在 C# 中從 Word 中提取文本
通常,文件處理應用程式、資料擷取或文字分析的主要任務是從 Word 文件檔案中提取文字。 在開發 C# 應用程式時,開發人員使用 IronWord 等程式庫來協助處理 .docx 格式的檔案並存取文件實例中的文字。 使用這些函式庫有助於自動從Word 文件中檢索內容,從而實現報告產生、資料探勘,甚至文件管理系統。
使用 IronWord 等函式庫,可以從任何 Word 文件實例中提取文字; 只需載入文件物件、開啟段落或章節,然後檢索所需的文字,同時保持其原始佈局即可。 這種功能在法律、醫療保健和金融領域將具有非凡的實用價值,因為在這些領域,文件處理通常是工作流程中不可或缺的一部分。 毫無疑問,C# 被用於開發極具可擴展性和高效性的應用程式,這些應用程式可以從 Word 文件中提取文字。 開發人員可以將其與更複雜的系統或應用程式結合使用。
How to Extract Text from Word in C#
- 透過 NuGet 在您的 C# 專案中安裝 IronWord 程式庫。
- 在 C# 檔案的頂部新增
using IronWord;,以從 Word 中提取文字。 - 設定您的許可證密鑰。
- 載入現有的 Word 文件。
- 使用
Paragraphs屬性存取段落。 - 使用迴圈遍歷段落和文字元素。
7.提取並顯示帶有
Console的文字。
IronWord是什麼?
IronWord是一款功能強大的文字擷取工具,可確保輕鬆取得各種類型的文件,例如 PDF、Word 和 TXT 文件。 它以精確和快速的方式進行設計,可以快速提取所需的文字(結構化或非結構化),同時保留文件其餘部分的原始格式。 IronWord 也可用於提供文件分析、資料擷取和內容自動索引。
如何在 C# 中從 Word 文件中提取文字:圖 1 - IronWord
該工具支援幾乎所有可用的文件類型,以確保與應用程式的順利集成,因此非常適合業務自動化和大批量文件處理。 以這種方式設計的庫具有可擴展性,可以輕鬆處理大量文檔,這對於從事批量資料提取的企業來說是一項非常重要的優勢。
IronWord 也完全相容於 C# 和其他程式語言,滿足希望簡化文件工作流程的開發人員和組織的需求。
IronWord 的特點
支援多種文件格式
IronWord 接受多種文件格式的文件,包括:
- PDF:它可以解釋普通文字 PDF、嵌入字體的 PDF 以及基於向量的 PDF 中的文字。
- Microsoft Word 文件 (DOCX):它可以輕鬆讀取 Word 文件中的文字,同時保持文件結構和格式不變。 *文字檔案 (TXT):此外,IronWord 還處理純文字文件,從簡單文字中提取和處理文字。
精確文字擷取
IronWord 提取引擎能夠熟練地提取文字內容,即使文字內容隱藏在具有複雜頁面佈局、嵌入字體或圖片和表格等混合內容的複雜文件中。 圖書館保存了:
*文字格式:*套用於文字的樣式,例如粗體、斜體、底線和其他樣式。 文件層級:**標題、段落和列表,以保持組織性和可讀性。
處理結構化和非結構化資料
IronWord 可以處理結構化資料和非結構化資料。 它可以提取:
*結構化資料:*具有可預測格式模式的文檔,例如表格和合約。 非結構化資料:**文字版面不可預測的文檔,例如報告或文章。
由於它能夠處理各種各樣的內容,因此在資料探勘、資訊檢索和分類等任務中已被證明非常有用。
大容量可擴充性
IronWord 旨在有效處理大量文檔,為企業應用程式提供強大的可擴充性。 範例包括
*文件批次處理:*一次處理多個文件。 處理大型檔案:**即使文件體積很大,效能也不會下降。
與程式語言的無縫集成
IronWord 透過易於使用的 API 可無縫整合到開發環境(尤其是 Python 開發環境)中。這使得開發人員能夠:
*將 IronWord 匯入 Python 應用程式:*直接在 Python 腳本中使用 IronWord 函數。 跨語言互通性:**除了 Python 之外,IronWord 還可以有效地用於其他語言,從而促進技術堆疊的互通性。
這種易於整合的特性使開發人員能夠專注於功能,而不是基礎設施。
高性能和速度
IronWord 針對效能進行了最佳化,即使從大型文件中也能快速提取文字,這對於需要快速執行的即時應用程式至關重要。 圖書館提供:
*多執行緒支援:*增強並發提取過程。 記憶體佔用小:**處理過程中系統資源利用率高,可擴充性強,能夠處理大型資料集。
可選的 OCR 支援
對於包含圖像的文檔,IronWord 可以與 OCR 技術結合使用,以實現以下功能:
*處理掃描文件:*從影像、掃描的 PDF 或其他基於影像的格式中提取文字。 多語言支援:**識別並提取支援的 OCR 語言的文字。
元資料保存
除了提取文字之外,IronWord 還會保留文件中的元資料,例如:
*文件版本控制和合規資訊:*可用於合規或存檔目的。 文件管理系統:**元資料與內容同等重要。
在 Visual Studio 中建立新專案
若要啟動 Visual Studio 應用程式,請從"檔案"功能表中選擇"檔案",然後選擇"新專案",最後選擇"控制台應用程式"。
如何在 C# 中從 Word 文件中提取文字:圖 2 - 控制台應用程式
選擇 .NET 項目的位置後,在文字欄位中輸入項目名稱,然後按一下"建立"按鈕並選擇所需的 .NET Framework。
如何在 C# 中從 Word 文件中提取文字:圖 3 - 專案配置
Visual Studio 專案結構會根據所選應用程式而有所不同。 若要實現或執行應用程式程式碼,請造訪 Program.cs 文件,該文件適用於控制台、視窗或線上應用程式。
如何在 C# 中從 Word 文件中提取文字:圖 4 - Target Framework
輸入程式碼後即可測試該程式庫。
安裝 IronWord 庫
從 Visual Studio 工具功能表中,選擇 NuGet 套件管理器。 若要存取軟體包管理控制台,請導覽至軟體包管理器介面。
Install-Package IronWord
下載並安裝後,該軟體包即可用於正在進行的專案中的文字擷取。
如何在 C# 中從 Word 文件中提取文字:圖 5 - 安裝 IronWord
套件管理器方法提供了另一種選擇,允許透過 Visual Studio 的 NuGet 套件管理器直接安裝到解決方案中。 下圖展示如何存取軟體套件管理器。
如何在 C# 中從 Word 文件中提取文字:圖 6 - NuGet 套件管理器
使用 NuGet 網站上的搜尋欄位尋找軟體包。 使用軟體套件管理器搜尋"IronWord",如下圖所示。
如何在 C# 中從 Word 文件中提取文字:圖 7 - 搜尋 IronWord
附圖顯示了相關的搜尋結果。 請進行以下調整,以便在您的電腦上安裝軟體。
從 Word 文件中提取文字
若要使用 IronWord 從文件中提取文字,請按照以下步驟操作。 下面的範例程式碼示範如何使用 C# 中的 IronWord 程式庫從 Word 文件 (.docx) 中擷取文字。
// Include necessary libraries
using IronWord;
// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";
// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;
// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
{
// Print each text element to the console
Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
}
}
// Wait for user input before closing the console
Console.ReadKey();
// Include necessary libraries
using IronWord;
// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";
// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;
// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
{
// Print each text element to the console
Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
}
}
// Wait for user input before closing the console
Console.ReadKey();
' Include necessary libraries
Imports IronWord
' Set the license key for IronWord
IronWord.License.LicenseKey = "License key here"
' Load the Word document
Dim docx1 = New WordDocument("D:\C# Projects\ConsoleApp\ConsoleApp\File\existing.docx")
' Access the collection of paragraphs in the document
Dim paragraphObj = docx1.Paragraphs
' Loop through each paragraph and its text elements
For i As Integer = 0 To paragraphObj.Count - 1
Dim j As Integer = 0
Do While j < paragraphObj(i).Texts.Count
' Print each text element to the console
Console.WriteLine(paragraphObj(i).Texts(j).Text.ToString())
j += 1
Loop
Next i
' Wait for user input before closing the console
Console.ReadKey()
程式碼初始化 IronWord 的授權金鑰,並從指定路徑載入 .docx 文檔,建立一個 WordDocument 物件。 文件載入後,它透過 Paragraphs 屬性存取所有段落。
如何在 C# 中從 Word 文件中提取文字:圖 8 - Word 文件範例
巢狀循環遍歷段落及其文字元素。 外層循環遍歷每個段落,而內層循環處理每個段落的文字元素。 文字元素在轉換為字串後會列印到控制台。
如何在 C# 中從 Word 文件中提取文字:圖 9 - 控制台輸出
Console.ReadKey() 暫停程式執行,允許輸出顯示,直到使用者輸入後才會關閉應用程式視窗。 這種方法可以有順序地提取和列印 Word 文件內容。
結論
IronWord 是一款功能全面、高效的文字擷取工具,適用於各種文件格式,尤其適用於 Word 文件。 它用戶友好的 API 和結構化文字提取功能使其成為開發人員尋求自動文件內容檢索的可靠解決方案。 該工具在處理複雜文件時能夠保持格式,對於法律、企業級內容管理和其他應用來說非常有價值。 實施 IronWord 可以增強文件分析、資料擷取和處理任務,提高處理大量文字時的效率和準確性。
IronWord 的起價為 599 美元。用戶可以選擇一次性支付年費,即可獲得技術支援和軟體更新服務。 IronWord會產生費用,因此無法免費發放。 有關具體定價詳情,請參閱 IronWord 的授權頁面。 請造訪產品頁面,以了解Iron Software的其他產品。
常見問題解答
如何使用 C# 從 Word 文檔中提取文本?
您可以通過在 C# 文件中安裝 IronWord 庫 via NuGet,添加 using IronWord;,使用您的許可證密鑰初始化庫,加載 Word 文檔,並循環遍歷段落以提取和顯示文本來從 Word 文檔中提取文本。
IronWord 支持哪些文檔格式的文本提取?
IronWord 支持從各種文檔格式中提取文本,包括 Microsoft Word 文件(DOCX)、PDF 文件和純文本文件(TXT)。
IronWord 如何確保從 Word 文檔中準確提取文本?
IronWord 保持文本的原始佈局和格式,能夠高精度地從 Word 文檔中提取文本。它支持結構化和非結構化數據,使其非常適合生成報告和管理文檔。
IronWord 能否與 C# 以外的其他編程語言集成?
是的,IronWord 設計為無縫集成到其他編程語言中,如 Python,增強跨語言的互操作性,允許開發人員在各種環境中使用它。
IronWord 是否支持從含有圖像的掃描文件中提取文本?
IronWord 可以與 OCR 技術一起使用來處理掃描文件,允許從圖像中提取文本並支持多種語言,這增強了其在文檔處理任務中的多功能性。
IronWord 為 C# 開發人員提供的關鍵功能有哪些?
IronWord 提供諸如準確的文本提取、支持多種文檔格式、可擴展性、多線程支持、對圖像的選擇性 OCR 和與其他編程語言的無縫集成,使其在文檔分析和數據提取時非常高效。
如何在 C# 項目中安裝 IronWord?
要在 C# 項目中安裝 IronWord,請使用 Visual Studio 中的 NuGet 包管理器。搜索 'IronWord' 並將該包添加到您的項目中,即可開始從 Word 文檔中提取文本。
使用 IronWord 的定價模式是什麼?
IronWord 的價格從 $599 一次性年費訂閱開始,包含技術支持和軟件更新的訪問,確保您擁有最新的功能和修正。
IronWord 如何處理大量文檔的文本提取?
IronWord 經過性能優化,支持多線程等功能,能夠高效處理大量文檔,並具有良好的擴展性,適合企業級應用程序。
IronWord 在法律或醫療等行業的文檔處理中提供了哪些益處?
IronWord 支持從多種格式中提取文本,同時保持原始格式,提升文檔處理效率。其可擴展性和性能優化使其特別適合法律和醫療行業,這些行業中需要高效的文檔管理。


