Lire le tableau dans le document
Cet exemple de code montre comment utiliser le moteur IronTesseract OCR pour extraire du texte et des données de table à partir d'un document PDF.
Une instance du moteur OCR IronTesseract est créée.
Un objet OcrInput est initialisé, et un fichier PDF(table.pdf)est chargé en utilisant la méthode LoadPdf.
Le moteur OCR traite le document en utilisant la méthode ReadDocumentAdvanced, qui retourne un objet OcrResult plus détaillé.
La première table trouvée dans le document est accédée en utilisant result.Tables.First()et les informations de cellule pour ce tableau sont extraites avec CellInfos.
La liste des données de cellule(listeDeCellules)contient désormais les cellules du tableau, y compris le contenu textuel et d'autres détails(par exemple, position de cellule, taille).
Cette méthode est utile pour extraire des données structurées comme des tableaux à partir de PDFs, permettant ainsi d'accéder et de traiter le texte dans chaque cellule de tableau de manière programmatique.