Tabelle im Dokument lesen

Dieses Codebeispiel demonstriert, wie man mit der IronTesseract OCR-Engine Text- und Tabellendaten aus einem PDF-Dokument extrahiert.

  1. Es wird eine Instanz der IronTesseract OCR-Engine erstellt.
  2. Ein OcrInput Objekt wird initialisiert und eine PDF-Datei ("table.pdf") wird mit der Methode LoadPdf geladen.
  3. Die OCR-Engine verarbeitet das Dokument mit der Methode ReadDocumentAdvanced, die ein detaillierteres OcrResult-Objekt zurückgibt.
  4. Auf die erste im Dokument gefundene Tabelle wird mit result.Tables.First() zugegriffen, und die Zelleninformationen für diese Tabelle werden mit CellInfos extrahiert.
  5. Die Liste der Zelldaten (cellList) enthält nun die Zellen der Tabelle, einschließlich des Textinhalts und anderer Details (z. B. Zellposition, Größe).
  6. Diese Methode ist nützlich, um strukturierte Daten wie Tabellen aus PDFs zu extrahieren, sodass der Text innerhalb jeder Tabellenzelle programmatisch zugänglich und verarbeitbar ist.

Erfahren Sie, wie Sie mit IronOCR Tabellen in PDFs lesen können.

Bereit anzufangen?
Nuget Downloads 5,525,971 | Version: 2026.3 gerade veröffentlicht
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.