Lire le tableau dans le document
Cet exemple de code montre comment utiliser le moteur IronTesseract OCR pour extraire du texte et des données de table à partir d'un document PDF.
Une instance du moteur OCR IronTesseract est créée.
Un objet OcrInput est initialisé, et un fichier PDF ("table.pdf") est chargé en utilisant la méthode LoadPdf.
Le moteur OCR traite le document en utilisant la méthode ReadDocumentAdvanced, qui retourne un objet OcrResult plus détaillé.
La première table trouvée dans le document est accédée en utilisant result.Tables.First(), et les informations des cellules pour cette table sont extraites avec CellInfos.
La liste de données de cellules (cellList) contient maintenant les cellules du tableau, y compris le contenu textuel et d'autres détails (par exemple, la position et la taille des cellules).
Cette méthode est utile pour extraire des données structurées comme des tableaux à partir de PDFs, permettant ainsi d'accéder et de traiter le texte dans chaque cellule de tableau de manière programmatique.