Leer tabla en documento

Este ejemplo de código demuestra cómo usar el motor OCR de IronTesseract para extraer texto y datos de tablas de un documento PDF.

  1. Se crea una instancia del motor OCR de IronTesseract.
  2. Se inicializa un objeto OcrInput y se carga un archivo PDF ("table.pdf") utilizando el método LoadPdf.
  3. El motor OCR procesa el documento usando el método ReadDocumentAdvanced, que devuelve un objeto OcrResult más detallado.
  4. La primera tabla encontrada en el documento se accede utilizando result.Tables.First(), y se extrae la información de las celdas de esa tabla con CellInfos.
  5. La lista de datos de celdas (cellList) ahora contiene las celdas de la tabla, incluyendo el contenido del texto y otros detalles (por ejemplo, posición de la celda, tamaño).
  6. Este método es útil para extraer datos estructurados como tablas de los PDFs, permitiendo que el texto dentro de cada celda de la tabla sea accedido y procesado programáticamente.

Descubra cómo leer tablas en archivos PDF con IronOCR.

¿Listo para empezar?
Nuget Descargas 5,167,857 | Version: 2025.11 recién lanzado