Tabelle im Dokument lesen
Dieses Code-Beispiel zeigt, wie man die IronTesseract OCR-Engine verwendet, um Text- und Tabellendaten aus einem PDF-Dokument zu extrahieren.
- Eine Instanz der
IronTesseractOCR-Engine wird erstellt. - Ein
OcrInput-Objekt wird initialisiert, und eine PDF-Datei (table.pdf) wird mithilfe derLoadPdf-Methode geladen. - Die OCR-Engine verarbeitet das Dokument mithilfe der
ReadDocumentAdvanced-Methode, die ein detaillierteresOcrResult-Objekt zurückgibt. - Auf die erste Tabelle im Dokument wird über
result.Tables.First()zugegriffen, und die Zellinformationen für diese Tabelle werden mitCellInfosextrahiert. - Die Liste der Zelldaten (
cellList) enthält nun die Zellen der Tabelle, einschließlich des Textinhalts und weiterer Details (z. B. Zellenposition, Größe). - Diese Methode ist nützlich, um strukturierte Daten wie Tabellen aus PDFs zu extrahieren, sodass der Text innerhalb jeder Tabellenzelle programmatisch zugänglich und verarbeitbar ist.
Erfahren Sie, wie Sie mit IronOCR Tabellen in PDFs lesen können.

