Extraer texto de DOCX con C# usando IronWord

This article was translated from English: Does it need improvement?
Translated
View the article in English

La extracción de texto de archivos DOCX suele ser un requisito vital para el procesamiento de documentos y el análisis de datos. IronWord proporciona una forma sencilla de leer y extraer contenido de texto de archivos DOCX existentes, garantizando el acceso a párrafos, tablas y otros elementos de texto mediante programación.

Esta guía se centra en el método ExtractText() y su capacidad para extraer texto de múltiples componentes del documento.

Comience a usar IronWord

Comience a usar IronWord en su proyecto hoy con una prueba gratuita.

Primer Paso:
green arrow pointer


Ejemplo de extracción de texto

El método ExtractText() recupera el contenido de texto de un documento de Word completo. En este ejemplo, se crea una instancia de un nuevo objeto de documento, se agrega texto de muestra, se llama al método ExtractText() y el resultado se muestra en la consola.

:path=/static-assets/word/content-code-examples/how-to/extract-text-simple.cs
using IronWord;

// Instantiate a new DOCX file
WordDocument doc = new WordDocument();

// Add text
doc.AddText("Hello, World!");

// Print extracted text from the document to the console
Console.WriteLine(doc.ExtractText());
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Resultado

Ejemplo de código para extracción de texto básica

Registro de la consola

Salida de consola que muestra el texto extraído

Extraer texto de un párrafo

Para tener más control, puede extraer texto de párrafos específicos en lugar de todo el documento. Al acceder a la colección Paragraphs , puede orientar y procesar cualquier sección. En este ejemplo, extraeremos texto del primer y último párrafo, los combinaremos y guardaremos el resultado en un archivo .txt.

:path=/static-assets/word/content-code-examples/how-to/extract-text-paragraphs.cs
using IronWord;
using System.IO;

// Load an existing DOCX file
WordDocument doc = new WordDocument("document.docx");

// Extract text and assign variables
string firstParagraph = doc.Paragraphs[0].ExtractText();
string lastParagraph = doc.Paragraphs.Last().ExtractText();

// Combine the texts
string newText = firstParagraph + " " + lastParagraph;

// Export the combined text as a new .txt file
File.WriteAllText("output.txt", newText);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Primer párrafo

Resultado de la extracción del primer párrafo

Último párrafo

Resultado de la extracción del último párrafo

Salida de archivo de texto

Salida de texto combinado en archivo de texto

Las capturas de pantalla anteriores muestran la extracción del primer párrafo, la extracción del último párrafo y la salida combinada guardada en un archivo de texto.

Extracción de texto de una tabla

Las tablas a menudo contienen datos estructurados que deben extraerse para su procesamiento o análisis. IronWord le permite acceder a los datos de la tabla navegando a través de filas y celdas. En este ejemplo, cargamos un documento que contiene una tabla de estadísticas de API y extraemos un valor de celda específico de la cuarta columna de la segunda fila.

:path=/static-assets/word/content-code-examples/how-to/extract-text-table.cs
using IronWord;

// Load the API statistics document
WordDocument apiStatsDoc = new WordDocument("api-statistics.docx");

// Extract text from the 1st table, 4th column and 2nd row
string extractedValue = apiStatsDoc.Tables[0].Rows[2].Cells[3].ExtractText();

// Print extracted value
Console.WriteLine($"Target success rate: {extractedValue}");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Tabla de ejemplo

Tabla de estadísticas de API en un documento de Word

Registro de la consola

Valor de celda de tabla extraído en la consola

Preguntas Frecuentes

¿Cuál es el método principal para extraer texto de archivos DOCX en IronWord?

El método principal para extraer texto de archivos DOCX usando IronWord es el método `ExtractText()`, que le permite recuperar contenido de texto de varios elementos del documento, como párrafos y tablas.

¿Cómo puedo extraer texto de párrafos específicos usando IronWord?

Puede extraer texto de párrafos específicos accediendo a la colección "Párrafos" de IronWord. Esto le permite identificar y procesar cualquier párrafo que necesite, lo que le proporciona mayor control sobre el proceso de extracción de texto.

¿Es posible extraer datos de tablas en documentos DOCX usando IronWord?

Sí, IronWord le permite extraer datos de tablas navegando a través de filas y celdas, lo que facilita el acceso a datos estructurados para su procesamiento o análisis.

¿Puedo exportar el texto extraído a un archivo usando IronWord?

Sí, una vez que extraiga el texto con IronWord, puede procesarlo más y exportarlo a varios formatos, como un archivo .txt, para almacenarlo o usarlo posteriormente.

¿Cuáles son los pasos para comenzar a utilizar IronWord para la extracción de texto?

Para comenzar a utilizar IronWord para la extracción de texto, descargue la biblioteca C#, cree un nuevo documento de Word, utilice el método `ExtractText()` para acceder y extraer el contenido del texto, y luego procese o exporte el texto extraído según sea necesario.

¿IronWord admite la extracción de datos de documentos DOCX completos?

Sí, IronWord admite la extracción de datos de documentos DOCX completos, lo que le permite recuperar todo el contenido de texto, incluidos párrafos y tablas, con el método `ExtractText()`.

¿Cómo gestiona IronWord la extracción de texto del primer y último párrafo de un documento de Word?

IronWord le permite extraer texto de párrafos específicos, incluido el primero y el último, accediendo a ellos a través de la colección "Párrafos" y procesando el texto según sea necesario.

¿Hay alguna manera de ver la salida de la consola del texto extraído en IronWord?

Sí, IronWord proporciona una funcionalidad para mostrar el texto extraído en la consola, lo que le permite verificar la salida directamente durante el proceso de extracción.

¿Cómo puedo extraer un valor de celda específico de una tabla en un archivo DOCX usando IronWord?

IronWord le permite extraer valores de celdas específicos de las tablas navegando por filas y columnas, lo que hace posible localizar y recuperar datos de cualquier celda dentro de la tabla.

¿Qué tipo de elementos de texto puede IronWord extraer de archivos DOCX?

IronWord puede extraer varios elementos de texto de archivos DOCX, incluidos párrafos, tablas y otros componentes de texto, proporcionando capacidades integrales de extracción de texto.

Ahmad Sohail
Desarrollador Full Stack

Ahmad es un desarrollador full-stack con una sólida base en C#, Python y tecnologías web. Tiene un profundo interés en construir soluciones de software escalables y disfruta explorando cómo el diseño y la funcionalidad se encuentran en aplicaciones del mundo real.

Antes ...

Leer más
¿Listo para empezar?
Nuget Descargas 27,129 | Version: 2025.11 recién lanzado