Lire le tableau dans le document
Cet exemple de code montre comment utiliser le moteur OCR IronTesseract pour extraire du texte et des données de tableau d'un document PDF.
- Une instance du moteur OCR
IronTesseractest créée. - Un objet
OcrInputest initialisé, et un fichier PDF (table.pdf) est chargé à l'aide de la méthodeLoadPdf. - Le moteur OCR traite le document à l'aide de la méthode
ReadDocumentAdvanced, qui renvoie un objetOcrResultplus détaillé. - Le premier tableau du document est accessible via
result.Tables.First(), et les informations des cellules de ce tableau sont extraites avecCellInfos. - La liste des données de cellule (
cellList) contient désormais les cellules du tableau, y compris le contenu textuel et d'autres détails (par exemple, la position et la taille des cellules). - Cette méthode est utile pour extraire des données structurées comme des tableaux à partir de fichiers PDF, permettant d'accéder et de traiter par programmation le texte contenu dans chaque cellule du tableau.
Découvrez comment lire les tableaux dans les fichiers PDF avec IronOCR.

