How to Read Table in Documents

This article was translated from English: Does it need improvement?
Translated
View the article in English

让我们来谈谈阅读文档中的表格。 使用普通 Tesseract 从表格中提取数据具有挑战性,因为文本通常位于单元格中,并且稀疏地分布在文档中。 不过,我们的库配备了一个机器学习模型,该模型经过训练和微调,可以准确地检测和提取表格数据。

对于简单的表格,您可以依靠直接的表格检测,而对于更复杂的结构,我们独有的 ReadDocumentAdvanced 方法可以提供强大的结果,有效地解析表格并提供数据。

as-heading:2(快速入门:一次调用提取复杂表格单元格)</em

几分钟内即可开始运行--本示例展示了如何使用 ReadDocumentAdvanced 通过一次 IronOCR 调用从复杂文档中获取详细的表格单元格数据。 它通过加载 PDF、应用高级表格检测和直接返回单元格信息列表来展示易用性。

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    var cells = new IronTesseract().ReadDocumentAdvanced(new OcrInput().LoadPdf("invoiceTable.pdf")).Tables.First().CellInfos;
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer

以下步骤将指导您开始使用 IronOCR 阅读表格:

```csharp :path=/static-assets/ocr/content-code-examples/how-to/read-table-in-document-with-ml.cs ``` 这种方法将文档的文本数据分为两类:一类有边框,另一类无边框。 对于有边框的内容,该库根据表格的结构将其进一步划分为若干小节。 翻译结果如下。 需要注意的是,由于此方法侧重于边框所包围的信息,任何跨越多行的合并单元格都将被视为单个单元格。

结果

在文档中读取表格