Przeczytaj tabelę w dokumencie

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

Przeczytaj tabelę w dokumencie

Ten przyklad kodu demonstruje, jak korzystac z silnika OCR IronTesseract do wyodrebniania tekstu i danych tabelarycznych z dokumentu PDF.

Tworzona jest instancja silnika OCR IronTesseract.
Inicjalizowany jest obiekt OcrInput, a plik PDF (table.pdf) jest ladowany przy uzyciu metody LoadPdf.
Silnik OCR przetwarza dokument za pomoca metody ReadDocumentAdvanced, ktora zwraca bardziej szczegolowy obiekt OcrResult.
Pierwsza tabela znaleziona w dokumencie jest dostepna poprzez result.Tables.First(), a informacje o komorkach tej tabeli sa wyciagane za pomoca CellInfos.
Lista danych komorkowych (cellList) zawiera teraz komorki tabeli, wlaczajac tekst i inne szczegoly (np. położenie komorki, rozmiar).
Ta metoda jest przydatna do wyodrębniania danych strukturalnych, takich jak tabele z plików PDF, co pozwala na programowe uzyskanie dostępu do tekstu w każdej komórce tabeli i jego przetwarzanie.