IRONWORDの使用方法

C#でワードからテキストを抽出する方法

Q: C# を使用して Word ドキュメントからテキストを抽出する方法は?

NuGet を介して IronWord ライブラリをインストールし、C# ファイルに using IronWord; を追加し、ライセンス キーでライブラリを初期化して Word ドキュメントを読み込み、段落をループしてテキストを抽出および表示することにより、C# で Word ドキュメントからテキストを抽出できます。

Q: IronWord でのテキスト抽出に対応しているドキュメント形式は何ですか?

IronWord は、Microsoft Word ファイル (DOCX)、PDF ファイル、プレーン テキスト ファイル (TXT) を含むさまざまなドキュメント形式からのテキスト抽出をサポートします。

Q: C# 開発者にとっての IronWord の主要機能は何ですか?

IronWord は、正確なテキスト抽出、複数のドキュメント形式のサポート、スケーラビリティ、マルチスレッド サポート、画像向けのオプションの OCR、および他のプログラミング言語とのシームレスな統合などの機能を提供し、ドキュメントの分析とデータ抽出に効率的です。

Q: IronWord の使用料金モデルはどのようになっていますか?

IronWord の価格は、技術サポートとソフトウェア アップデートへのアクセスを含む年間サブスクリプション料金として $599 から始まり、常に最新の機能と修正が利用できるようにします。

Jordi Bardia

更新日:2025年6月22日

通常、ドキュメント処理アプリケーション、データ抽出、またはテキスト分析の主なタスクは、Word 文書ファイルからのテキスト抽出です。 C# アプリケーションを開発する場合、開発者は .docx 形式のファイルを操作し、ドキュメントインスタンス内のテキストにアクセスするのに役立つ IronWord などのライブラリを使用します。これらのライブラリを使用すると、 Word 文書からコンテンツを取得する方法が自動化され、レポート作成、データマイニング、さらにはドキュメント管理システムの生成が可能になります。

IronWord などのライブラリを使用すると、任意の Word 文書インスタンスからテキストを抽出できます。ドキュメントオブジェクトを読み込み、段落またはセクションを開き、元のレイアウトを維持しながら目的のテキストを取得するだけです。このような機能は、文書処理が通常ワークフローに不可欠な法務、医療、金融の分野で非常に有用であることが証明されます。 C# は、Word ファイルからテキストを抽出する、非常にスケーラブルで効率的なアプリケーションの開発に間違いなく使用されます。開発者は、これをより広範なシステムやアプリケーションと組み合わせることができます。

C#でWordからテキストを抽出する方法

NuGet 経由で IronWord ライブラリを C# プロジェクトにインストールします。
Word からテキストを抽出するには、C# ファイルの先頭に using IronWord; を追加します。
ライセンスキーを設定します。
既存の Word 文書を読み込みます。
Paragraphs プロパティを使用して段落にアクセスします。
foreach ループを使用して段落とテキスト要素をループします。
Console を使用してテキストを抽出して表示します。

IronWordとは何ですか？

IronWord はテキストを取得するための強力なツールであり、PDF、Word、TXT ファイルなど、あらゆる種類のファイルを簡単に取得できます。ドキュメントの残りの元の形式を維持しながら、構造化テキストまたは非構造化テキストを必要なだけ素早く抽出できるように、精度と速度を考慮して設計されています。 IronWord は、ドキュメント分析、データ抽出、コンテンツの自動インデックス作成にも利用されます。

C# で Word からテキストを抽出する方法: 図 1 - IronWord

このツールは、アプリケーションとのスムーズな統合を保証するために利用可能なほぼすべてのファイルタイプをサポートしており、ビジネスの自動化や大量のドキュメント処理に最適です。このように設計されたライブラリのスケーラビリティにより、大量のドキュメントを簡単に処理できるようになります。これは、大量のデータ抽出を行う企業にとって非常に重要な資産です。

IronWord は C# やその他のプログラミング言語とも完全に互換性があり、ドキュメントワークフローをスムーズに合理化したい開発者や組織のニーズを満たします。

IronWordの機能

複数のドキュメント形式のサポート

IronWordは、さまざまなドキュメント形式のファイルを受け入れます。

PDF:通常のテキストを含む PDF、埋め込みフォントを含む PDF、およびベクターに基づく PDF 上のテキストを解釈できます。
Microsoft Word ファイル (DOCX):文書の構造と書式を維持しながら、Word 文書からテキストを簡単に読み取ります。 *テキストファイル (TXT):さらに、IronWord はプレーンテキストファイルを処理し、単純なテキストからテキストを抽出して処理します。

正確なテキスト抽出

IronWord 抽出エンジンは、複雑なページレイアウト、埋め込みフォント、画像と表などのコンテンツが混在する複雑なドキュメント内にテキストコンテンツが埋め込まれている場合でも、テキストコンテンツを抽出するのに優れています。図書館では以下のものを保存しています:

*テキストの書式設定:*太字、斜体、下線などのスタイルや、テキストに適用されるその他のスタイル要素。 ドキュメント階層:**整理と読みやすさを維持するためのヘッダー、段落、リスト。

構造化データと非構造化データの処理

IronWord は構造化データと非構造化データの両方を処理します。抽出できるもの:

*構造化データ:*フォームや契約書など、予測可能な書式パターンを持つドキュメント。 非構造化データ:**レポートや記事など、予測できないテキストレイアウトを持つドキュメント。

幅広いコンテンツを処理できるため、データマイニング、情報検索、分類などのタスクに役立つことが実証されています。

大容量データに対応するスケーラビリティ

IronWord は、大量のドキュメントを効率的に処理するように構築されており、エンタープライズアプリケーションに優れたスケーラビリティを提供します。例には以下が含まれます：

*ドキュメントのバッチ処理:*一度に多数のドキュメントを処理します。 大きなファイルの処理:**ドキュメントサイズが大きい場合でもパフォーマンスが低下しません。

プログラミング言語とのシームレスな統合

IronWordは、使いやすいAPIを通じて、特にPythonなどの開発環境にシームレスに統合されます。これにより、開発者は以下のことが可能になります。

IronWord を Python アプリケーションにインポート: Python スクリプト内で直接 IronWord 関数を使用します。 *言語間の相互運用性: Python 以外にも、IronWord は他の言語でも効果的に活用でき、技術スタックの相互運用性を促進します。

この統合の容易さにより、開発者はインフラストラクチャではなく機能に集中できます。

高いパフォーマンスとスピード

IronWord はパフォーマンスが最適化されており、大規模なドキュメントからでも高速なテキスト抽出が可能です。これは、迅速な実行を必要とするリアルタイムアプリケーションには不可欠です。図書館では以下を提供しています:

*マルチスレッドサポート:*同時抽出プロセスの強化。 小さなメモリフットプリント:**処理中にシステムリソースを最適に使用することで、大規模なデータセットのスケーラビリティを実現します。

オプションのOCRサポート

画像を含むドキュメントの場合、IronWord を OCR テクノロジーと併用すると次のことが可能になります。

*スキャンされたドキュメントの処理:*画像、スキャンされた PDF、またはその他の画像ベースの形式からテキストを抽出します。 多言語サポート:**サポートされている OCR 言語でテキストを認識し、抽出します。

メタデータの保存

テキスト抽出以外にも、IronWord は次のようなドキュメントのメタデータを保存します。

*ドキュメントのバージョン管理とコンプライアンス情報:*コンプライアンスまたはアーカイブの目的に役立ちます。 ドキュメント管理システム:**メタデータはコンテンツと同様に重要です。

Visual Studioで新しいプロジェクトを作成する

Visual Studio アプリケーションを起動するには、[ファイル] メニューから [ファイル] を選択し、[新しいプロジェクト] を選択してから [コンソールアプリ] を選択します。

C# で Word からテキストを抽出する方法: 図 2 - コンソールアプリ

場所を選択した後、テキストフィールドに .NET プロジェクトの名前を入力し、[作成] ボタンをクリックして、必要な .NET Framework を選択します。

C# で Word からテキストを抽出する方法: 図 3 - プロジェクト構成

Visual Studio プロジェクトの構造は、選択したアプリケーションによって異なります。アプリケーションコードを実装または実行するには、コンソール、ウィンドウ、またはオンラインアプリケーションに適用可能な Program.cs ファイルにアクセスしてください。

C# で Word からテキストを抽出する方法: 図 4 - ターゲットフレームワーク

コードを入力すると、ライブラリをテストできます。

IronWordライブラリをインストールする

Visual Studio のツールメニューから、NuGet パッケージマネージャーを選択します。パッケージ管理コンソールにアクセスするには、パッケージマネージャーインターフェイスに移動します。

Install-Package IronWord

パッケージをダウンロードしてインストールすると、進行中のプロジェクトでのテキスト抽出に使用できるようになります。

C# で Word からテキストを抽出する方法: 図 5 - IronWordのインストール

パッケージマネージャーメソッドには別のオプションがあり、Visual Studio の NuGet パッケージマネージャーを介してソリューションに直接インストールできます。下の図は、パッケージマネージャーにアクセスする方法を示しています。

C# で Word からテキストを抽出する方法: 図 6 - NuGetパッケージマネージャー

NuGet Web サイトの検索フィールドを使用してパッケージを見つけます。以下のスクリーンショットに示すように、パッケージマネージャーで"IronWord"を検索します。

C# で Word からテキストを抽出する方法: 図 7 - IronWord の検索

付随するグラフィックには関連する検索結果が表示されます。ソフトウェアをコンピュータにインストールするには、次の調整を行ってください。

Word文書からテキストを抽出する

IronWord を使用してドキュメントからテキストを抽出するには、次の手順に従います。以下のサンプルコードは、C# の IronWord ライブラリを使用して Word 文書 (.docx) からテキストを抽出する方法を示しています。

// Include necessary libraries
using IronWord;

// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";

// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");

// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;

// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
    for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
    {
        // Print each text element to the console
        Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
    }
}

// Wait for user input before closing the console
Console.ReadKey();

// Include necessary libraries
using IronWord;

// Set the license key for IronWord
IronWord.License.LicenseKey = "License key here";

// Load the Word document
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");

// Access the collection of paragraphs in the document
var paragraphObj = docx1.Paragraphs;

// Loop through each paragraph and its text elements
for (int i = 0; i < paragraphObj.Count; i++)
{
    for (int j = 0; j < paragraphObj[i].Texts.Count; j++)
    {
        // Print each text element to the console
        Console.WriteLine(paragraphObj[i].Texts[j].Text.ToString());
    }
}

// Wait for user input before closing the console
Console.ReadKey();

$vbLabelText $csharpLabel

このコードは、IronWord のライセンスキーを初期化し、指定されたパスから .docx ドキュメントを読み込んで、WordDocument オブジェクトを作成します。ドキュメントが読み込まれた後、Paragraphs プロパティを介してすべての段落にアクセスします。

C# で Word からテキストを抽出する方法: 図 8 - サンプル Word ドキュメント

ネストされたループは段落とそのテキスト要素を反復処理します。外側のループは各段落を走査し、内側のループは各段落のテキスト要素を処理します。テキスト要素は文字列に変換された後、コンソールに出力されます。

C# で Word からテキストを抽出する方法: 図 9 - コンソール出力

Console.ReadKey() プログラムの実行を一時停止し、アプリケーションウィンドウを閉じる前にユーザー入力があるまで出力表示を許可します。この方法では、Word 文書の内容を順番に抽出して印刷します。

結論

IronWord は、さまざまなドキュメント形式からテキストを抽出するための多用途で効率的なツールであり、特に Word ドキュメントに適しています。ユーザーフレンドリーな API と構造化テキスト抽出機能により、ドキュメントコンテンツの自動取得を求める開発者にとって信頼できるソリューションとなります。このツールは、複雑なドキュメントを処理しながら書式を維持するため、法務、エンタープライズレベルのコンテンツ管理、その他のアプリケーションに役立ちます。 IronWord を実装すると、ドキュメント分析、データ抽出、処理タスクが強化され、大量のテキストを処理する際の生産性と精度が向上します。

IronWordの開始価格は599ドルです。ユーザーは年間サブスクリプション料金を1回支払うことで、テクニカルサポートとソフトウェアアップデートへのアクセスを得ることができます。 IronWord には無料配布を妨げるコストがかかります。具体的な価格の詳細については、IronWord のライセンスページを参照してください。その他の Iron Software 製品については、製品ページをご覧ください。

よくある質問

C# を使用して Word ドキュメントからテキストを抽出する方法は?

NuGet を介して IronWord ライブラリをインストールし、C# ファイルに using IronWord; を追加し、ライセンスキーでライブラリを初期化して Word ドキュメントを読み込み、段落をループしてテキストを抽出および表示することにより、C# で Word ドキュメントからテキストを抽出できます。

IronWord でのテキスト抽出に対応しているドキュメント形式は何ですか?

IronWord は、Microsoft Word ファイル (DOCX)、PDF ファイル、プレーンテキストファイル (TXT) を含むさまざまなドキュメント形式からのテキスト抽出をサポートします。

IronWord は、Word ドキュメントからの正確なテキスト抽出をどのように保証しますか?

IronWord は、テキストの元のレイアウトと書式設定を維持し、Word ドキュメントからのテキスト抽出に高精度を提供します。構造化データと非構造化データの両方をサポートしており、レポートの生成やドキュメント管理に最適です。

IronWord は C# 以外のプログラミング言語と統合できますか?

はい、IronWord は、Python などの他のプログラミング言語とのシームレスな統合用に設計されており、複数の環境でのクロス言語の相互運用性を強化し、開発者が使用できるようにします。

IronWord は、画像を含むスキャンされたドキュメントからのテキスト抽出をサポートしていますか?

IronWord は OCR 技術とともに使用してスキャンされたドキュメントを処理し、画像からのテキスト抽出を可能にし、複数言語に対応しているため、ドキュメント処理タスクの多様性が向上します。

C# 開発者にとっての IronWord の主要機能は何ですか?

IronWord は、正確なテキスト抽出、複数のドキュメント形式のサポート、スケーラビリティ、マルチスレッドサポート、画像向けのオプションの OCR、および他のプログラミング言語とのシームレスな統合などの機能を提供し、ドキュメントの分析とデータ抽出に効率的です。

C# プロジェクトに IronWord をインストールするにはどうすればよいですか?

C# プロジェクトに IronWord をインストールするには、Visual Studio の NuGet パッケージマネージャーを使用します。「IronWord」を検索してパッケージをプロジェクトに追加し、Word ドキュメントからテキストを抽出を開始します。

IronWord の使用料金モデルはどのようになっていますか?

IronWord の価格は、技術サポートとソフトウェアアップデートへのアクセスを含む年間サブスクリプション料金として $599 から始まり、常に最新の機能と修正が利用できるようにします。

IronWord は大量のドキュメントをテキスト抽出用にどのように処理しますか?

IronWord はパフォーマンスの最適化がされており、マルチスレッドサポートのような機能を備えているため、大量の文書を効率的に処理およびスケールでき、エンタープライズレベルのアプリケーションに適しています。

法律や医療などの業界におけるドキュメント処理において IronWord が提供する利点は何ですか?

IronWord は、さまざまな形式からのテキスト抽出をサポートしながら元の書式設定を維持することで、ドキュメント処理の効率を高めます。そのスケーラビリティとパフォーマンス最適化により、ドキュメント管理が重要な法律や医療などの業界に理想的です。

Jordi Bardia

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

Jordiは、最も得意な言語がPython、C#、C++であり、Iron Softwareでそのスキルを発揮していない時は、ゲームプログラミングをしています。製品テスト、製品開発、研究の責任を分担し、Jordiは継続的な製品改善において多大な価値を追加しています。この多様な経験は彼を挑戦させ続け、興味を持たせており、Iron Softwareで働くことの好きな側面の一つだと言います。Jordiはフロリダ州マイアミで育ち、フロリダ大学でコンピュータサイエンスと統計学を学びました。

顧客ハイライト:

開発者スポットライト:

ウェビナー:

無料30日間のトライアルを開始

C#でワードからテキストを抽出する方法

C#でWordからテキストを抽出する方法

IronWordとは何ですか？

IronWordの機能

複数のドキュメント形式のサポート

正確なテキスト抽出

構造化データと非構造化データの処理

大容量データに対応するスケーラビリティ

プログラミング言語とのシームレスな統合

高いパフォーマンスとスピード

オプションのOCRサポート

メタデータの保存

Visual Studioで新しいプロジェクトを作成する

IronWordライブラリをインストールする

Word文書からテキストを抽出する

結論

よくある質問

C# を使用して Word ドキュメントからテキストを抽出する方法は?

IronWord でのテキスト抽出に対応しているドキュメント形式は何ですか?

IronWord は、Word ドキュメントからの正確なテキスト抽出をどのように保証しますか?

IronWord は C# 以外のプログラミング言語と統合できますか?

IronWord は、画像を含むスキャンされたドキュメントからのテキスト抽出をサポートしていますか?

C# 開発者にとっての IronWord の主要機能は何ですか?

C# プロジェクトに IronWord をインストールするにはどうすればよいですか?

IronWord の使用料金モデルはどのようになっていますか?

IronWord は大量のドキュメントをテキスト抽出用にどのように処理しますか?

法律や医療などの業界におけるドキュメント処理において IronWord が提供する利点は何ですか?

アイアンサポートチーム

無料30日間のトライアルを開始

C#でワードからテキストを抽出する方法

C#でWordからテキストを抽出する方法

IronWordとは何ですか？

IronWordの機能

複数のドキュメント形式のサポート

正確なテキスト抽出

構造化データと非構造化データの処理

大容量データに対応するスケーラビリティ

プログラミング言語とのシームレスな統合

高いパフォーマンスとスピード

オプションのOCRサポート

メタデータの保存

Visual Studioで新しいプロジェクトを作成する

IronWordライブラリをインストールする

Word文書からテキストを抽出する

結論

よくある質問

C# を使用して Word ドキュメントからテキストを抽出する方法は?

IronWord でのテキスト抽出に対応しているドキュメント形式は何ですか?

IronWord は、Word ドキュメントからの正確なテキスト抽出をどのように保証しますか?

IronWord は C# 以外のプログラミング言語と統合できますか?

IronWord は、画像を含むスキャンされたドキュメントからのテキスト抽出をサポートしていますか?

C# 開発者にとっての IronWord の主要機能は何ですか?

C# プロジェクトに IronWord をインストールするにはどうすればよいですか?

IronWord の使用料金モデルはどのようになっていますか?

IronWord は大量のドキュメントをテキスト抽出用にどのように処理しますか?

法律や医療などの業界におけるドキュメント処理において IronWord が提供する利点は何ですか?

関連する記事

IronWordを使用してC#で記入可能なフォームテンプレートを作成する方法

ASP.NET Coreでワードファイルをインポート＆エクスポートする

VS 2022 プログラムで新しいワード文書を作成する（チュートリアル）

Next step: Start free 30-day Trial

Next step: Start free 30-day Trial

世界中の数百万人のエンジニアから信頼されています。

アイアンサポートチーム