IronOCR 操作指南 在文档中读取表格 How to Read Table in Documents Curtis Chau 已更新:六月 9, 2025 Download IronOCR NuGet 下载 DLL 下载 Windows 安装程序 Start Free Trial Copy for LLMs Copy for LLMs Copy page as Markdown for LLMs Open in ChatGPT Ask ChatGPT about this page Open in Gemini Ask Gemini about this page Open in Grok Ask Grok about this page Open in Perplexity Ask Perplexity about this page Share Share on Facebook Share on X (Twitter) Share on LinkedIn Copy URL Email article This article was translated from English: Does it need improvement? Translated View the article in English 让我们来谈谈阅读文档中的表格。 使用普通 Tesseract 从表格中提取数据具有挑战性,因为文本通常位于单元格中,并且稀疏地分布在文档中。 不过,我们的库配备了一个机器学习模型,该模型经过训练和微调,可以准确地检测和提取表格数据。 对于简单的表格,您可以依靠直接的表格检测,而对于更复杂的结构,我们独有的 ReadDocumentAdvanced 方法可以提供强大的结果,有效地解析表格并提供数据。 as-heading:2(快速入门:一次调用提取复杂表格单元格)</em 几分钟内即可开始运行--本示例展示了如何使用 ReadDocumentAdvanced 通过一次 IronOCR 调用从复杂文档中获取详细的表格单元格数据。 它通过加载 PDF、应用高级表格检测和直接返回单元格信息列表来展示易用性。 Get started making PDFs with NuGet now: Install IronOCR with NuGet Package Manager PM > Install-Package IronOcr Copy and run this code snippet. var cells = new IronTesseract().ReadDocumentAdvanced(new OcrInput().LoadPdf("invoiceTable.pdf")).Tables.First().CellInfos; Deploy to test on your live environment Start using IronOCR in your project today with a free trial Free 30 day Trial 以下步骤将指导您开始使用 IronOCR 阅读表格: 最小工作流程(5 个步骤)下载从表格中提取数据的 C# 库。 为提取准备图像和 PDF 文档。 将 ReadDataTables 属性设置为 true,以启用表格检测。 对复杂表格使用 ReadDocumentAdvanced 方法。 提取这些方法检测到的数据 简单表格示例阅读发票示例请注意 在 .NET Framework 上使用高级扫描要求项目在 x64 架构上运行。 导航至项目配置,取消选中 "首选 32 位 "选项即可实现这一目标。 请在以下故障排除指南中了解更多信息:"[Advanced Scan on .NET Framework](/csharp/ocr/troubleshooting/advanced-scan-on-net-framework/)"。 ```csharp :path=/static-assets/ocr/content-code-examples/how-to/read-table-in-document-with-ml.cs ``` 这种方法将文档的文本数据分为两类:一类有边框,另一类无边框。 对于有边框的内容,该库根据表格的结构将其进一步划分为若干小节。 翻译结果如下。 需要注意的是,由于此方法侧重于边框所包围的信息,任何跨越多行的合并单元格都将被视为单个单元格。 结果