フッターコンテンツにスキップ
IRONWORDの使用方法

C#でワードからテキストを抽出する方法

通常、ドキュメント処理アプリケーション、データ抽出、またはテキスト分析の主なタスクは、Word 文書ファイルからのテキスト抽出です。 C# アプリケーションを開発する場合、開発者は .docx 形式のファイルを操作し、ドキュメント インスタンス内のテキストにアクセスするのに役立つ IronWord などのライブラリを使用します。 これらのライブラリを使用すると、 Word 文書からコンテンツを取得する方法が自動化され、レポート作成、データ マイニング、さらにはドキュメント管理システムの生成が可能になります。

IronWord などのライブラリを使用すると、任意の Word 文書インスタンスからテキストを抽出できます。 ドキュメント オブジェクトを読み込み、段落またはセクションを開き、元のレイアウトを維持しながら目的のテキストを取得するだけです。 このような機能は、文書処理が通常ワークフローに不可欠な法務、医療、金融の分野で非常に有用であることが証明されます。 C# は、Word ファイルからテキストを抽出する、非常にスケーラブルで効率的なアプリケーションの開発に間違いなく使用されます。 開発者は、これをより広範なシステムやアプリケーションと組み合わせることができます。

C#でWordからテキストを抽出する方法

  1. NuGet 経由で IronWord ライブラリを C# プロジェクトにインストールします。
  2. Word からテキストを抽出するには、C# ファイルの先頭にusing IronWord;を追加します。
  3. ライセンス キーを設定します。
  4. 既存の Word 文書を読み込みます。
  5. Paragraphsプロパティを使用して段落にアクセスします。
  6. foreachループを使用して段落とテキスト要素をループします。
  7. Consoleでテキストを抽出して表示します。

IronWordとは何ですか?

IronWord はテキストを取得するための強力なツールであり、PDF、Word、TXT ファイルなど、あらゆる種類のファイルを簡単に取得できます。 ドキュメントの残りの元の形式を維持しながら、構造化テキストまたは非構造化テキストを必要なだけ素早く抽出できるように、精度と速度を考慮して設計されています。 IronWord は、ドキュメント分析、データ抽出、コンテンツの自動インデックス作成にも利用されます。

C#でWordからテキストを抽出する方法: 図1 - IronWord

このツールは、アプリケーションとのスムーズな統合を保証するために利用可能なほぼすべてのファイル タイプをサポートしており、ビジネスの自動化や大量のドキュメント処理に最適です。 このように設計されたライブラリのスケーラビリティにより、大量のドキュメントを簡単に処理できるようになります。これは、大量のデータ抽出を行う企業にとって非常に重要な資産です。

IronWord は C# やその他のプログラミング言語とも完全に互換性があり、ドキュメント ワークフローをスムーズに合理化したい開発者や組織のニーズを満たします。

IronWordの機能

複数のドキュメント形式のサポート

IronWordは、さまざまなドキュメント形式のファイルを受け入れます。

  • PDF:通常のテキストを含む PDF、埋め込みフォントを含む PDF、およびベクターに基づく PDF 上のテキストを解釈できます。
  • Microsoft Word ファイル (DOCX):文書の構造と書式を維持しながら、Word 文書からテキストを簡単に読み取ります。 *テキスト ファイル (TXT):さらに、IronWord はプレーン テキスト ファイルを処理し、単純なテキストからテキストを抽出して処理します。

正確なテキスト抽出

IronWord 抽出エンジンは、複雑なページ レイアウト、埋め込みフォント、画像と表などのコンテンツが混在する複雑なドキュメント内にテキスト コンテンツが埋め込まれている場合でも、テキスト コンテンツを抽出するのに優れています。 図書館では以下のものを保存しています:

*テキストの書式設定:*太字、斜体、下線などのスタイルや、テキストに適用されるその他のスタイル要素。 ドキュメント階層:**整理と読みやすさを維持するためのヘッダー、段落、リスト。

構造化データと非構造化データの処理

IronWord は構造化データと非構造化データの両方を処理します。 抽出できるもの:

*構造化データ:*フォームや契約書など、予測可能な書式パターンを持つドキュメント。 非構造化データ:**レポートや記事など、予測できないテキストレイアウトを持つドキュメント。

幅広いコンテンツを処理できるため、データマイニング、情報検索、分類などのタスクに役立つことが実証されています。

大容量データに対応するスケーラビリティ

IronWord は、大量のドキュメントを効率的に処理するように構築されており、エンタープライズ アプリケーションに優れたスケーラビリティを提供します。 例には以下が含まれます:

*ドキュメントのバッチ処理:*一度に多数のドキュメントを処理します。 大きなファイルの処理:**ドキュメント サイズが大きい場合でもパフォーマンスが低下しません。

プログラミング言語とのシームレスな統合

IronWordは、使いやすいAPIを通じて、特にPythonなどの開発環境にシームレスに統合されます。これにより、開発者は以下のことが可能になります。

  • IronWord を Python アプリケーションにインポート: Python スクリプト内で直接 IronWord 関数を使用します。 *言語間の相互運用性: Python 以外にも、IronWord は他の言語でも効果的に活用でき、技術スタックの相互運用性を促進します。

この統合の容易さにより、開発者はインフラストラクチャではなく機能に集中できます。

高いパフォーマンスとスピード

IronWord はパフォーマンスが最適化されており、大規模なドキュメントからでも高速なテキスト抽出が可能です。これは、迅速な実行を必要とするリアルタイム アプリケーションには不可欠です。 図書館では以下を提供しています:

*マルチスレッド サポート:*同時抽出プロセスの強化。 小さなメモリ フットプリント:**処理中にシステム リソースを最適に使用することで、大規模なデータセットのスケーラビリティを実現します。

オプションのOCRサポート

画像を含むドキュメントの場合、IronWord を OCR テクノロジーと併用すると次のことが可能になります。

*スキャンされたドキュメントの処理:*画像、スキャンされた PDF、またはその他の画像ベースの形式からテキストを抽出します。 多言語サポート:**サポートされている OCR 言語でテキストを認識し、抽出します。

メタデータの保存

テキスト抽出以外にも、IronWord は次のようなドキュメントのメタデータを保存します。

*ドキュメントのバージョン管理とコンプライアンス情報:*コンプライアンスまたはアーカイブの目的に役立ちます。 ドキュメント管理システム:**メタデータはコンテンツと同様に重要です。

Visual Studioで新しいプロジェクトを作成する

Visual Studio アプリケーションを起動するには、[ファイル] メニューから [ファイル] を選択し、[新しいプロジェクト] を選択してから [コンソール アプリ] を選択します。

C#でWordからテキストを抽出する方法: 図2 - コンソールアプリ

場所を選択した後、テキスト フィールドに .NET プロジェクトの名前を入力し、[作成] ボタンをクリックして、必要な .NET Framework を選択します。

C#でWordからテキストを抽出する方法: 図3 - プロジェクト構成

Visual Studio プロジェクトの構造は、選択したアプリケーションによって異なります。 アプリケーション コードを実装または実行するには、コンソール、ウィンドウ、またはオンライン アプリケーションに適用可能な Program.cs ファイルにアクセスしてください。

C#でWordからテキストを抽出する方法: 図4 - ターゲットフレームワーク

コードを入力すると、ライブラリをテストできます。

IronWordライブラリをインストールする

Visual Studio のツール メニューから、NuGet パッケージ マネージャーを選択します。 パッケージ管理コンソールにアクセスするには、パッケージ マネージャー インターフェイスに移動します。

Install-Package IronWord

パッケージをダウンロードしてインストールすると、進行中のプロジェクトでのテキスト抽出に使用できるようになります。

C#でWordからテキストを抽出する方法: 図5 - IronWordのインストール

パッケージ マネージャー メソッドには別のオプションがあり、Visual Studio の NuGet パッケージ マネージャーを介してソリューションに直接インストールできます。 下の図は、パッケージ マネージャーにアクセスする方法を示しています。

C#でWordからテキストを抽出する方法: 図6 - NuGetパッケージマネージャー

NuGet Web サイトの検索フィールドを使用してパッケージを見つけます。 以下のスクリーンショットに示すように、パッケージ マネージャーで"IronWord"を検索します。

C#でWordからテキストを抽出する方法: 図7 - IronWordの検索

付随するグラフィックには関連する検索結果が表示されます。 ソフトウェアをコンピュータにインストールするには、次の調整を行ってください。

Word文書からテキストを抽出する

IronWord を使用してドキュメントからテキストを抽出するには、次の手順に従います。 以下のサンプル コードは、C# の IronWord ライブラリを使用して Word 文書 (.docx) からテキストを抽出する方法を示しています。

// Include necessary libraries
using IronWord;

// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";

// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");

// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;

// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
    for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
    {
        // Print each text element to the console
        Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
    }
}

// Wait for user input before closing the console
Console.ReadKey();
// Include necessary libraries
using IronWord;

// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";

// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");

// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;

// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
    for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
    {
        // Print each text element to the console
        Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
    }
}

// Wait for user input before closing the console
Console.ReadKey();
' Include necessary libraries
Imports IronWord

' Set the license key for IronWord
IronWord.License.LicenseKey = "License key here"

' Load the Word document
Dim docx1 = New WordDocument("D:\C# Projects\ConsoleApp\ConsoleApp\File\existing.docx")

' Access the collection of paragraphs in the document
Dim paragraphObj = docx1.Paragraphs

' Loop through each paragraph and its text elements
For i As Integer = 0 To paragraphObj.Count - 1
	Dim j As Integer = 0
	Do While j < paragraphObj(i).Texts.Count
		' Print each text element to the console
		Console.WriteLine(paragraphObj(i).Texts(j).Text.ToString())
		j += 1
	Loop
Next i

' Wait for user input before closing the console
Console.ReadKey()
$vbLabelText   $csharpLabel

このコードは、IronWord のライセンス キーを初期化し、指定されたパスから .docx ドキュメントを読み込んで、WordDocument オブジェクトを作成します。 ドキュメントが読み込まれた後、 Paragraphsプロパティを通じてすべての段落にアクセスします。

C#でWordからテキストを抽出する方法: 図8 - サンプルWord文書

ネストされたループは段落とそのテキスト要素を反復処理します。 外側のループは各段落を走査し、内側のループは各段落のテキスト要素を処理します。 テキスト要素は文字列に変換された後、コンソールに出力されます。

C#でWordからテキストを抽出する方法: 図9 - コンソール出力

Console.ReadKey()はプログラムの実行を中断し、アプリケーション ウィンドウを閉じる前にユーザー入力が行われるまで出力を表示できるようにします。 この方法では、Word 文書の内容を順番に抽出して印刷します。

結論

IronWord は、さまざまなドキュメント形式からテキストを抽出するための多用途で効率的なツールであり、特に Word ドキュメントに適しています。 ユーザーフレンドリーな API と構造化テキスト抽出機能により、ドキュメント コンテンツの自動取得を求める開発者にとって信頼できるソリューションとなります。 このツールは、複雑なドキュメントを処理しながら書式を維持するため、法務、エンタープライズ レベルのコンテンツ管理、その他のアプリケーションに役立ちます。 IronWord を実装すると、ドキュメント分析、データ抽出、処理タスクが強化され、大量のテキストを処理する際の生産性と精度が向上します。

IronWordの開始価格は599ドルです。ユーザーは年間サブスクリプション料金を1回支払うことで、テクニカルサポートとソフトウェアアップデートへのアクセスを得ることができます。 IronWord には無料配布を妨げるコストがかかります。 具体的な価格の詳細については、IronWord のライセンス ページを参照してください。 その他の Iron Software 製品については、製品ページをご覧ください。

よくある質問

C# を使用して Word ドキュメントからテキストを抽出する方法は?

NuGet を介して IronWord ライブラリをインストールし、C# ファイルに using IronWord; を追加し、ライセンス キーでライブラリを初期化して Word ドキュメントを読み込み、段落をループしてテキストを抽出および表示することにより、C# で Word ドキュメントからテキストを抽出できます。

IronWord でのテキスト抽出に対応しているドキュメント形式は何ですか?

IronWord は、Microsoft Word ファイル (DOCX)、PDF ファイル、プレーン テキスト ファイル (TXT) を含むさまざまなドキュメント形式からのテキスト抽出をサポートします。

IronWord は、Word ドキュメントからの正確なテキスト抽出をどのように保証しますか?

IronWord は、テキストの元のレイアウトと書式設定を維持し、Word ドキュメントからのテキスト抽出に高精度を提供します。構造化データと非構造化データの両方をサポートしており、レポートの生成やドキュメント管理に最適です。

IronWord は C# 以外のプログラミング言語と統合できますか?

はい、IronWord は、Python などの他のプログラミング言語とのシームレスな統合用に設計されており、複数の環境でのクロス言語の相互運用性を強化し、開発者が使用できるようにします。

IronWord は、画像を含むスキャンされたドキュメントからのテキスト抽出をサポートしていますか?

IronWord は OCR 技術とともに使用してスキャンされたドキュメントを処理し、画像からのテキスト抽出を可能にし、複数言語に対応しているため、ドキュメント処理タスクの多様性が向上します。

C# 開発者にとっての IronWord の主要機能は何ですか?

IronWord は、正確なテキスト抽出、複数のドキュメント形式のサポート、スケーラビリティ、マルチスレッド サポート、画像向けのオプションの OCR、および他のプログラミング言語とのシームレスな統合などの機能を提供し、ドキュメントの分析とデータ抽出に効率的です。

C# プロジェクトに IronWord をインストールするにはどうすればよいですか?

C# プロジェクトに IronWord をインストールするには、Visual Studio の NuGet パッケージ マネージャーを使用します。「IronWord」を検索してパッケージをプロジェクトに追加し、Word ドキュメントからテキストを抽出を開始します。

IronWord の使用料金モデルはどのようになっていますか?

IronWord の価格は、技術サポートとソフトウェア アップデートへのアクセスを含む年間サブスクリプション料金として $599 から始まり、常に最新の機能と修正が利用できるようにします。

IronWord は大量のドキュメントをテキスト抽出用にどのように処理しますか?

IronWord はパフォーマンスの最適化がされており、マルチスレッドサポートのような機能を備えているため、大量の文書を効率的に処理およびスケールでき、エンタープライズレベルのアプリケーションに適しています。

法律や医療などの業界におけるドキュメント処理において IronWord が提供する利点は何ですか?

IronWord は、さまざまな形式からのテキスト抽出をサポートしながら元の書式設定を維持することで、ドキュメント処理の効率を高めます。そのスケーラビリティとパフォーマンス最適化により、ドキュメント管理が重要な法律や医療などの業界に理想的です。

Jordi Bardia
ソフトウェアエンジニア
Jordiは、最も得意な言語がPython、C#、C++であり、Iron Softwareでそのスキルを発揮していない時は、ゲームプログラミングをしています。製品テスト、製品開発、研究の責任を分担し、Jordiは継続的な製品改善において多大な価値を追加しています。この多様な経験は彼を挑戦させ続け、興味を持たせており、Iron Softwareで働くことの好きな側面の一つだと言います。Jordiはフロリダ州マイアミで育ち、フロリダ大学でコンピュータサイエンスと統計学を学びました。