using IronWord; using System.Linq; using System; // Load docx WordDocument doc = new WordDocument("multi-paragraph.docx"); // Returns text from the entire file Console.WriteLine(doc.ExtractText()); // Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs[0].ExtractText()); // Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Imports IronWord Imports System.Linq Imports System ' Load docx Private doc As New WordDocument("multi-paragraph.docx") ' Returns text from the entire file Console.WriteLine(doc.ExtractText()) ' Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs(0).ExtractText()) ' Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText())

텍스트 추출

문서에서 대용량의 텍스트를 추출할 때 특히 표와 대량의 단락을 처리할 때 비효율적이고 시간이 많이 걸리게 됩니다. 그러나 IronWord의 ExtractText 메서드는 시간을 절약할 수 있는 솔루션입니다. 이 메서드를 통해 개발자는 문서 내의 특정 텍스트를 쉽게 추출하여 추가 루프가 필요하지 않게 하고 Text 속성에 대한 액세스를 단순화합니다. 이 방법을 사용하면 개발자는 효율적으로 작업하고 귀중한 시간을 절약할 수 있습니다.

이 예에서는 ExtractText 메서드를 사용하는 다양한 방법을 보여주고 문서에서 텍스트를 가져올 때 효율성을 높입니다.

Docx 파일에서 텍스트를 추출하는 유용한 방법

using IronWord;
WordDocument doc = new WordDocument("multi-paragraph.docx");
Console.WriteLine(doc.ExtractText());
Console.WriteLine(doc.Paragraphs[0].ExtractText());
Console.WriteLine(doc.Paragraphs.Last().ExtractText());

텍스트 추출

IronWord 라이브러리를 사용하면 Word 문서에서 텍스트를 추출하는 과정이 매우 간단합니다. 우리는 라이브러리를 가져오고 WordDocument 클래스를 초기화하는 것으로 시작합니다. 이 단계는 단락이 있는 기존 문서를 로드할 수 있게 해줍니다. 그런 다음 ExtractText 메서드를 호출하고 문서의 전체 텍스트를 콘솔에 출력합니다.

특정 텍스트 추출

위 예시에서는 문서 전체의 텍스트를 추출했지만, IronWord 라이브러리를 사용하면 추출 과정을 완벽하게 제어할 수 있습니다. 특정 부분이나 단락만 원할 경우 WordDocument의 Paragraphs 속성을 사용하여 Paragraphs 배열을 반환할 수 있습니다. 일반 목록으로서 이 배열은 위에서 설명한 doc.Paragraphs[0]을 사용하거나 C# 컬렉션을 위한 내장 배열 메서드를 사용하여 필요한대로 조작할 수 있습니다.

문서의 첫 번째 단락에서 텍스트만 반환하고 추출하여 콘솔에 출력할 때 Paragraphs의 인덱스를 참조합니다. 그 후 마지막 단락의 텍스트만 반환하고 추출하기 위해 문서에서 Last을(를) Paragraphs 배열로 호출합니다.

고급 텍스트 추출을 위한 IronWord API를 살펴보세요