閱讀文件中的表格
此程式碼範例示範如何使用 IronTesseract OCR 引擎,從 PDF 文件中擷取文字與表格資料。
- 建立
IronTesseractOCR 引擎的實例。 - 初始化一個
OcrInput物件,並使用table.pdf方法載入 PDF 檔案 (LoadPdf)。 - OCR 引擎使用
ReadDocumentAdvanced方法處理文件,該方法會回傳一個更詳細的OcrResult物件。 - 文件中的第一個表格是透過
result.Tables.First()存取,而該表格的儲存格資訊則是使用CellInfos進行擷取。 - 儲存格資料清單 (
cellList) 現已包含該表格的儲存格,其中包含文字內容及其他詳細資訊(例如:儲存格位置、大小)。 - 此方法適用於從 PDF 中擷取表格等結構化資料,使每個表格儲存格內的文字能透過程式化方式存取與處理。
準備開始了嗎?
Nuget 下載 5,896,332 | 版本: 2026.5 just released

