在文档中读取表格

此代码示例演示了如何使用 IronTesseract OCR 引擎从 PDF 文档中提取文本和表格数据。

  1. 创建了一个 IronTesseract OCR 引擎的实例。
  2. 初始化一个 OcrInput 对象,并使用 table.pdf 方法加载 PDF 文件 (LoadPdf)。
  3. OCR 引擎使用 ReadDocumentAdvanced 方法处理文档,该方法会返回一个更详细的 OcrResult 对象。
  4. 文档中的第一个表格可通过 result.Tables.First() 访问,该表格的单元格信息则使用 CellInfos 提取。
  5. 单元格数据列表 (cellList) 现包含表格中的单元格,包括文本内容及其他详细信息(例如单元格位置、大小)。
  6. 此方法可用于从 PDF 中提取结构化数据(如表格),允许以编程方式访问和处理每个表格单元格中的文本。

探索如何使用 IronOCR 读取 PDF 中的表格。

准备开始了吗?
Nuget 下载 5,896,332 | 版本: 2026.5 just released
Still Scrolling Icon

还在滚动吗?

想快速获得证据? PM > Install-Package IronOcr
运行示例 观看您的图像变成可搜索文本。