Leer tabla en documento

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

Leer tabla en documento

Este ejemplo de código muestra cómo usar el motor OCR IronTesseract para extraer texto y datos de tabla de un documento PDF.

Se crea una instancia del motor OCR IronTesseract.
Se inicializa un objeto OcrInput, y se carga un archivo PDF (table.pdf) utilizando el método LoadPdf.
El motor OCR procesa el documento usando el método ReadDocumentAdvanced, que devuelve un objeto OcrResult más detallado.
La primera tabla encontrada en el documento se accede usando result.Tables.First(), y se extrae la información de las celdas para esa tabla con CellInfos.
La lista de datos de celdas (cellList) ahora contiene las celdas de la tabla, incluyendo el contenido de texto y otros detalles (por ejemplo, posición de la celda, tamaño).
Este método es útil para extraer datos estructurados como tablas de los PDFs, permitiendo que el texto dentro de cada celda de la tabla sea accedido y procesado programáticamente.