在文档中读取表格
此代码示例演示了如何使用 IronTesseract OCR 引擎从 PDF 文档中提取文本和表格数据。
- 创建了一个
IronTesseractOCR 引擎的实例。 - 初始化一个
OcrInput对象,并使用table.pdf方法加载 PDF 文件 (LoadPdf)。 - OCR 引擎使用
ReadDocumentAdvanced方法处理文档,该方法会返回一个更详细的OcrResult对象。 - 文档中的第一个表格可通过
result.Tables.First()访问,该表格的单元格信息则使用CellInfos提取。 - 单元格数据列表 (
cellList) 现包含表格中的单元格,包括文本内容及其他详细信息(例如单元格位置、大小)。 - 此方法可用于从 PDF 中提取结构化数据(如表格),允许以编程方式访问和处理每个表格单元格中的文本。
准备开始了吗?
Nuget 下载 5,896,332 | 版本: 2026.5 just released

