在文件中讀取表格
此代碼範例演示了如何使用 IronTesseract OCR 引擎從 PDF 文件中提取文本和表格數據。
建立了一個 IronTesseract OCR 引擎的實例。
OcrInput 物件被初始化,並且一個 PDF 檔案("table.pdf")使用 LoadPdf 方法加載。
OCR 引擎使用 ReadDocumentAdvanced 方法處理文件,該方法返回更詳細的 OcrResult 對象。
使用 result.Tables.First 來訪問文件中找到的第一個表格()且該表格的儲存格資訊會透過 CellInfos 提取。
單元格數據列表(cellList)現在包含表格的儲存格,包括文字內容和其他詳細資料(例如,單元格位置、大小).
此方法對於從 PDF 中提取結構化數據(如表格)非常有用,允許以程式化方式訪問和處理每個表格單元格內的文本。