Przeczytaj tabelę w dokumencie
Ten przykład kodu pokazuje, jak używać silnika OCR IronTesseract do wyodrębniania tekstu i danych tabel z dokumentu PDF.
- Utworzono instancję silnika OCR
IronTesseract. - Inicjowany jest obiekt
OcrInput, a plik PDF (table.pdf) jest ładowany przy użyciu metodyLoadPdf. - Silnik OCR przetwarza dokument przy użyciu metody
ReadDocumentAdvanced, która zwraca bardziej szczegółowy obiektOcrResult. - Dostęp do pierwszej tabeli w dokumencie uzyskuje się za pomocą
result.Tables.First(), a informacje o komórkach tej tabeli są pobierane za pomocąCellInfos. - Lista danych komórek (
cellList) zawiera teraz komórki tabeli, w tym treść tekstową i inne szczegóły (np. położenie komórki, rozmiar). - Ta metoda jest przydatna do wyodrębniania danych strukturalnych, takich jak tabele z plików PDF, co pozwala na programowe uzyskanie dostępu do tekstu w każdej komórce tabeli i jego przetwarzanie.

