텍스트 추출
문서에서 대량의 텍스트를 추출할 때, 특히 표나 많은 양의 단락을 다룰 경우 이 과정은 비효율적이고 시간이 많이 소요될 수 있습니다. 그러나 IronWord의 ExtractText 메서드는 시간을 절약해 주는 솔루션입니다. 이를 통해 개발자는 문서 내 특정 텍스트를 쉽게 추출할 수 있어, 추가적인 루프가 필요하지 않으며 Text 속성에 대한 접근이 간소화됩니다. 이 방법을 사용하면 개발자는 효율적으로 작업하고 귀중한 시간을 절약할 수 있습니다.
이 예제에서는 ExtractText 메서드를 활용하는 여러 가지 방법을 소개하고, 문서에서 텍스트를 추출할 때 효율성을 높이는 방법을 보여드리겠습니다.
Docx 파일에서 텍스트를 추출하는 유용한 방법
using IronWord;WordDocument doc = new WordDocument("multi-paragraph.docx");Console.WriteLine(doc.ExtractText());Console.WriteLine(doc.Paragraphs[0].ExtractText());Console.WriteLine(doc.Paragraphs.Last().ExtractText());
텍스트 추출
IronWord 라이브러리를 사용하면 Word 문서에서 텍스트를 추출하는 과정이 매우 간단합니다. 먼저 라이브러리를 임포트하고 WordDocument 클래스를 초기화합니다. 이 단계를 통해 단락이 포함된 기존 문서를 불러올 수 있습니다. 그런 다음 ExtractText 메서드를 호출하여 문서의 전체 텍스트를 콘솔에 PRINT합니다.
특정 텍스트 추출
위 예시에서는 문서 전체의 텍스트를 추출했지만, IronWord 라이브러리를 사용하면 추출 과정을 완벽하게 제어할 수 있습니다. 특정 부분이나 단락만 원하는 경우, WordDocument 내의 Paragraphs 속성을 사용하여 Paragraphs 배열을 반환할 수 있습니다. 이 배열은 일반 목록이므로, 위에서 doc.Paragraphs[0]와 같이 인덱스를 호출하거나 C# 컬렉션의 내장 배열 메서드를 사용하여 필요에 따라 조작할 수 있습니다.
Paragraphs의 인덱스에 접근할 때, 문서의 첫 번째 단락에 있는 텍스트만 반환 및 추출하여 콘솔에 PRINT합니다. 이어서, 문서의 마지막 단락 텍스트만 반환하고 추출하기 위해 Paragraphs 배열에서 Last를 호출합니다.

