Przeczytaj tabelę w dokumencie

Ten przykład kodu pokazuje, jak używać silnika OCR IronTesseract do wyodrębniania tekstu i danych tabel z dokumentu PDF.

  1. Utworzono instancję silnika OCR IronTesseract.
  2. Inicjowany jest obiekt OcrInput, a plik PDF (table.pdf) jest ładowany przy użyciu metody LoadPdf.
  3. Silnik OCR przetwarza dokument przy użyciu metody ReadDocumentAdvanced, która zwraca bardziej szczegółowy obiekt OcrResult.
  4. Dostęp do pierwszej tabeli w dokumencie uzyskuje się za pomocą result.Tables.First(), a informacje o komórkach tej tabeli są pobierane za pomocą CellInfos.
  5. Lista danych komórek (cellList) zawiera teraz komórki tabeli, w tym treść tekstową i inne szczegóły (np. położenie komórki, rozmiar).
  6. Ta metoda jest przydatna do wyodrębniania danych strukturalnych, takich jak tabele z plików PDF, co pozwala na programowe uzyskanie dostępu do tekstu w każdej komórce tabeli i jego przetwarzanie.

Poznaj, jak czytać tabele w plikach PDF za pomocą IronOCR.

Gotowy, aby rozpocząć?
Nuget Pliki do pobrania 5,896,332 | Wersja: 2026.5 just released
Still Scrolling Icon

Wciąż przewijasz?

Czy chcesz szybko dowodu? PM > Install-Package IronOcr
uruchom próbkę obserwuj, jak twój obraz staje się tekstem z możliwością wyszukiwania.