读取文档中的表格
此代码示例演示如何使用IronTesseract OCR引擎从PDF文档中提取文本和表数据。
创建了一个IronTesseract OCR引擎的实例。
一个OcrInput对象被初始化,并且一个PDF文件("table.pdf")使用 LoadPdf 方法加载。
OCR 引擎使用 ReadDocumentAdvanced 方法处理文档,该方法返回一个更详细的 OcrResult 对象。
文档中的第一个表格可通过result.Tables.First访问()并且该表的单元格信息是通过CellInfos提取的。
单元格数据列表(单元格列表)现在包含表格的单元格,包括文本内容和其他详细信息(例如,单元格位置、大小).
此方法对于从PDF中提取结构化数据(如表格)非常有用,允许以编程方式访问和处理每个表格单元格内的文本。