Leer tabla en documento
Este ejemplo de código demuestra cómo utilizar el motor de OCR IronTesseract para extraer texto y datos de tablas de un documento PDF.
- Se crea una instancia del motor de OCR
IronTesseract. - Se inicializa un objeto
OcrInputy se carga un archivo PDF ("table.pdf") utilizando el métodoLoadPdf. - El motor de OCR procesa el documento utilizando el método
ReadDocumentAdvanced, que devuelve un objetoOcrResultmás detallado. - Se accede a la primera tabla que se encuentra en el documento utilizando
result.Tables.First(), y la información de la celda de esa tabla se extrae conCellInfos. - La lista de datos de celdas (
cellList) ahora contiene las celdas de la tabla, incluido el contenido de texto y otros detalles (por ejemplo, posición de la celda, tamaño). - Este método es útil para extraer datos estructurados como tablas de los PDFs, permitiendo que el texto dentro de cada celda de la tabla sea accedido y procesado programáticamente.

