在文件中讀取表格
此代碼範例演示了如何使用 IronTesseract OCR 引擎從 PDF 文件中提取文本和表格數據。
建立了一個 IronTesseract OCR 引擎的實例。
初始化一個 OcrInput 物件,並使用 LoadPdf 方法載入 PDF 文件("table.pdf")。
OCR 引擎使用 ReadDocumentAdvanced 方法處理文件,該方法返回更詳細的 OcrResult 對象。
可以使用 result.Tables.First() 訪問文件中的第一個表格,並使用 CellInfos 提取該表格的儲存格資訊。
現在,單元格數據列表 (cellList) 包含了表格的單元格,包括文字內容和其他細節(例如,單元格位置、大小)。
此方法對於從 PDF 中提取結構化數據(如表格)非常有用,允許以程式化方式訪問和處理每個表格單元格內的文本。