在文档中读取表格

此代码示例演示了如何使用 IronTesseract OCR 引擎从 PDF 文档中提取文本和表格数据。

  1. 创建 IronTesseract OCR 引擎的一个实例。
  2. 初始化OcrInput对象,并使用LoadPdf方法加载 PDF 文件("table.pdf")。
  3. OCR 引擎使用ReadDocumentAdvanced方法处理文档,该方法返回更详细的OcrResult对象。
  4. 使用result.Tables.First()访问文档中找到的第一个表格,并使用CellInfos提取该表格的单元格信息。
  5. 单元格数据列表( cellList )现在包含表格的单元格,包括文本内容和其他详细信息(例如,单元格位置、大小)。
  6. 此方法可用于从 PDF 中提取结构化数据(如表格),允许以编程方式访问和处理每个表格单元格中的文本。

探索如何使用 IronOCR 读取 PDF 中的表格。

准备开始了吗?
Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布