读取文档中的表格
此代码示例演示如何使用IronTesseract OCR引擎从PDF文档中提取文本和表数据。
创建了一个IronTesseract OCR引擎的实例。
一个 OcrInput 对象被初始化,并使用 LoadPdf 方法加载 PDF 文件("table.pdf")。
OCR 引擎使用 ReadDocumentAdvanced 方法处理文档,该方法返回一个更详细的 OcrResult 对象。
通过 result.Tables.First() 访问文档中找到的第一个表,并使用 CellInfos 提取该表的单元格信息。
现在,单元格数据列表(cellList)包含了表格的单元格,包括文本内容和其他细节(例如,单元格位置、大小)。
此方法对于从PDF中提取结构化数据(如表格)非常有用,允许以编程方式访问和处理每个表格单元格内的文本。