Lire le tableau dans le document

Cet exemple de code montre comment utiliser le moteur OCR IronTesseract pour extraire du texte et des données de tableau d'un document PDF.

  1. Une instance du moteur OCR IronTesseract est créée.
  2. Un objet OcrInput est initialisé, et un fichier PDF (table.pdf) est chargé à l'aide de la méthode LoadPdf.
  3. Le moteur OCR traite le document à l'aide de la méthode ReadDocumentAdvanced, qui renvoie un objet OcrResult plus détaillé.
  4. Le premier tableau du document est accessible via result.Tables.First(), et les informations des cellules de ce tableau sont extraites avec CellInfos.
  5. La liste des données de cellule (cellList) contient désormais les cellules du tableau, y compris le contenu textuel et d'autres détails (par exemple, la position et la taille des cellules).
  6. Cette méthode est utile pour extraire des données structurées comme des tableaux à partir de fichiers PDF, permettant d'accéder et de traiter par programmation le texte contenu dans chaque cellule du tableau.

Découvrez comment lire les tableaux dans les fichiers PDF avec IronOCR.

Prêt à commencer?
Nuget Téléchargements 5,888,303 | Version : 2026.5 just released
Still Scrolling Icon

Vous faites encore défiler ?

Vous voulez une preuve rapidement ? PM > Install-Package IronOcr
lancez un échantillon regardez votre image se transformer en texte consultable.