Tabelle im Dokument lesen

Dieses Code-Beispiel zeigt, wie man die IronTesseract OCR-Engine verwendet, um Text- und Tabellendaten aus einem PDF-Dokument zu extrahieren.

  1. Eine Instanz der IronTesseract OCR-Engine wird erstellt.
  2. Ein OcrInput-Objekt wird initialisiert, und eine PDF-Datei (table.pdf) wird mithilfe der LoadPdf-Methode geladen.
  3. Die OCR-Engine verarbeitet das Dokument mithilfe der ReadDocumentAdvanced-Methode, die ein detaillierteres OcrResult-Objekt zurückgibt.
  4. Auf die erste Tabelle im Dokument wird über result.Tables.First() zugegriffen, und die Zellinformationen für diese Tabelle werden mit CellInfos extrahiert.
  5. Die Liste der Zelldaten (cellList) enthält nun die Zellen der Tabelle, einschließlich des Textinhalts und weiterer Details (z. B. Zellenposition, Größe).
  6. Diese Methode ist nützlich, um strukturierte Daten wie Tabellen aus PDFs zu extrahieren, sodass der Text innerhalb jeder Tabellenzelle programmatisch zugänglich und verarbeitbar ist.

Erfahren Sie, wie Sie mit IronOCR Tabellen in PDFs lesen können.

Bereit anzufangen?
Nuget Downloads 5,896,332 | Version: 2026.5 just released
Still Scrolling Icon

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronOcr
Führen Sie ein Beispiel aus und beobachten Sie, wie Ihr Bild zu durchsuchbarem Text wird.