Leer tabla en documento
Este ejemplo de código muestra cómo utilizar el motor OCR IronTesseract para extraer datos de texto y tablas de un documento PDF.
- Se crea una instancia del motor OCR
IronTesseract. - Se inicializa un objeto
OcrInputy se carga un archivo PDF ("table.pdf") utilizando el métodoLoadPdf. - El motor OCR procesa el documento usando el método
ReadDocumentAdvanced, que devuelve un objetoOcrResultmás detallado. - La primera tabla encontrada en el documento se accede utilizando
result.Tables.First(), y se extrae la información de las celdas de esa tabla conCellInfos. - La lista de datos de celdas (
cellList) ahora contiene las celdas de la tabla, incluyendo el contenido del texto y otros detalles (por ejemplo, posición de la celda, tamaño). - Este método es útil para extraer datos estructurados como tablas de los PDFs, permitiendo que el texto dentro de cada celda de la tabla sea accedido y procesado programáticamente.





