在文档中读取表格

此代码示例演示如何使用 IronTesseract OCR 引擎从 PDF 文档中提取文本和表格数据。

  1. 创建 IronTesseract OCR 引擎的一个实例。
  2. 初始化一个 OcrInput 对象,并使用 LoadPdf 方法加载 PDF 文件("table.pdf")。
  3. OCR 引擎使用 ReadDocumentAdvanced 方法处理文档,该方法返回一个更详细的 OcrResult 对象。
  4. 使用 result.Tables.First() 访问文档中找到的第一个表格,并使用 CellInfos 提取该表格的单元格信息。
  5. 单元格数据列表(cellList)现在包含表格的单元格,包括文本内容和其他详细信息(例如,单元格位置、大小)。
  6. 此方法可用于从 PDF 中提取结构化数据(如表格),允许以编程方式访问和处理每个表格单元格中的文本。

探索如何使用 IronOCR 读取 PDF 中的表格。

准备开始了吗?
Nuget 下载 5,556,263 | 版本: 2026.3 刚刚发布
Still Scrolling Icon

还在滚动吗?

想快速获得证据? PM > Install-Package IronOcr
运行示例 观看您的图像变成可搜索文本。