Tabelle im Dokument lesen

Dieses Codebeispiel zeigt, wie man die IronTesseract OCR-Engine verwendet, um Text- und Tabellendaten aus einem PDF-Dokument zu extrahieren.

Eine Instanz der IronTesseract OCR-Engine wird erstellt.

Ein OcrInput-Objekt wird initialisiert und eine PDF-Datei("table.pdf")wird mit der LoadPdf-Methode geladen.

Die OCR-Engine verarbeitet das Dokument mithilfe der ReadDocumentAdvanced-Methode, die ein detaillierteres OcrResult-Objekt zurückgibt.

Die erste Tabelle im Dokument wird mit result.Tables.First aufgerufen()und die Zellinformationen für diese Tabelle werden mit CellInfos extrahiert.

Die Liste der Zellen-Daten(Zellenliste)enthält nun die Zellen der Tabelle, einschließlich des Textinhalts und weiterer Details(z. B. Zellposition, Größe).

Diese Methode ist nützlich zum Extrahieren strukturierter Daten wie Tabellen aus PDFs, wodurch der Text in jeder Tabellenzelle programmgesteuert abgerufen und verarbeitet werden kann.