Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Les fichiers Excel sont omniprésents dans les tâches d'analyse et de manipulation de données, car ils offrent un moyen pratique de stocker et d'organiser des données tabulaires. En Python, il existe de nombreuses bibliothèques disponibles pour Lecture de fichiers Excelchacun d'entre eux possède ses propres caractéristiques et capacités. Deux options importantes sont Pandas et IronXL, qui offrent toutes deux des méthodes efficaces pour lire les fichiers Excel en Python.
Dans cet article, nous allons comparer les fonctionnalités et les performances de Pandas et IronXL pour lire des fichiers Excel en Python.
Pandas est une puissante bibliothèque open-source d'analyse et de manipulation de données pour Python. Il présente la structure de données DataFrame, qui est une structure de données étiquetée en deux dimensions avec des colonnes de types potentiellement différents. Pandas offre un large éventail de fonctionnalités pour la manipulation des données, y compris la lecture et l'écriture de données à partir de diverses sources, telles que les fichiers CSV, les bases de données SQL et les fichiers Excel.
Voici quelques-unes des principales caractéristiques de Pandas :
Pandas présente la structure de données DataFrame, qui est essentiellement une structure de données étiquetée en deux dimensions avec des colonnes de types potentiellement différents. Elle est similaire à une feuille de calcul ou à une table SQL, ce qui facilite les opérations de filtrage, de regroupement et d'agrégation sur les données tabulaires.
Pandas offre un large éventail de fonctions pour la manipulation des données, y compris la fusion, le remodelage, le découpage, l'indexation et le pivotement des données. Ces opérations permettent aux utilisateurs de nettoyer, de transformer et de préparer efficacement les données pour l'analyse ou la visualisation.
Pandas offre un support solide pour travailler avec des données de séries temporelles, y compris des outils pour l'indexation date/heure et le rééchantillonnage, ainsi que des méthodes pratiques pour gérer les données manquantes et la conversion des fuseaux horaires.
Pandas peut collaborer de manière transparente avec diverses bibliothèques Python fréquemment employées dans l'analyse de données et les calculs scientifiques, notamment NumPy, Matplotlib et Scikit-learn. Cette interopérabilité permet aux utilisateurs d'exploiter les points forts de différentes bibliothèques dans le cadre d'un flux d'analyse unique.
Dans l'ensemble, Pandas est un outil puissant pour la manipulation et l'analyse de données en Python, et il est largement utilisé dans divers domaines, notamment la finance, l'économie, la biologie et les sciences sociales.
IronXL est une bibliothèque Python conçue spécifiquement pour travailler avec des fichiers Excel. Il fournit une API intuitive pour lire, écrire et manipuler des documents Excel en Python. IronXL vise à simplifier les opérations sur les fichiers Excel en offrant une interface directe et en éliminant le besoin de dépendances externes, telles que Microsoft Excel ou Excel Interop.
Les principales caractéristiques d'IronXL sont énumérées ci-dessous :
IronXL propose une API de document Excel Python 3+ intuitive et facile à utiliser, permettant aux développeurs de lire, d'éditer et de créer des fichiers de feuilles de calcul Excel en toute transparence.
Conçu pour Python 3+ et compatible avec Windows, Mac, Linux et les plateformes cloud, IronXL garantit la flexibilité des environnements de déploiement.
Les développeurs peuvent travailler avec des fichiers Excel dans Python sans avoir à installer Microsoft Office ou à s'occuper d'Excel Interop, ce qui simplifie le processus d'intégration et minimise les dépendances.
Prend en charge Python 3.7+ sur différents systèmes d'exploitation, notamment Microsoft Windows, macOS, Linux, Docker, Azure et AWS. Compatible avec des IDE populaires comme JetBrains PyCharm et d'autres IDE Python.
Créer, charger, enregistrer et exporter des feuilles de calcul dans différents formats, notamment XLS, XLSX, XSLT, XLSM, CSV, TSV, JSON, HTML, binaire et tableau d'octets.
Modifiez les métadonnées, définissez les autorisations et les mots de passe, créez et supprimez des feuilles de travail, manipulez la mise en page des feuilles, gérez les images, etc.
Effectuer diverses opérations sur des plages de cellules telles que le tri, le découpage, l'effacement, la copie, la recherche et le remplacement de valeurs, la mise en place d'hyperliens et la fusion et la défusion de cellules.
Personnalisez les styles de cellules, notamment la police, la taille, la bordure, l'alignement et le motif d'arrière-plan, et appliquez une mise en forme conditionnelle.
Utilisez des fonctions mathématiques telles que la moyenne, la somme, le minimum et le maximum, et définissez les formats de données des cellules (texte, nombre, formule, date, devise, scientifique, heure, booléen et formats personnalisés).
Tout d'abord, Python doit être installé sur votre machine. Installez la dernière version de Python 3.x à partir du site officiel de Site web Python. Lors de l'installation de Python, veillez à choisir l'option permettant d'ajouter Python au PATH du système, afin de pouvoir y accéder à partir de la ligne de commande.
Pour démontrer la fonctionnalité de Pandas et IronXL dans la lecture des fichiers Excel, créons un projet Python à l'aide de PyCharm, un environnement de développement intégré très répandu (L'IDE) pour Python.
Ouvrez PyCharm et créez un nouveau projet Python.
Configurez le projet comme suit :
Donnez un nom au projet. Dans ce cas, "pythonReadExcel"
Choisissez l'emplacement souhaité pour le projet
Choisissez le type d'interprète : Projet venv
Sélectionner la version de Python
Pour installer Pandas dans votre projet, vous pouvez suivre les étapes suivantes :
Ouvrez l'invite de commande ou le terminal : Dans PyCharm, dans Affichage->Fenêtres outils->Terminal.
pip install pandas
Cette commande installe la bibliothèque Pandas et ses dépendances à partir de l'index des paquets Python (PyPI).
![Alternatives à Pandas Read Excel (Sans utiliser l'interopérabilité) IronXL pour Python : Figure 4 - Sortie de la console après l'installation de Pandas](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-4.webp)
pip install openpyxl
Pour installer IronXL pour Python dans un projet, suivez les étapes suivantes :
Assurez-vous des conditions préalables : Avant d'installer IronXL, assurez-vous que les prérequis nécessaires sont installés sur votre système :
**.NET 6.0 SDK** : IronXL s'appuie sur la bibliothèque IronXL .NET, en particulier .NET 6.0, en tant que technologie sous-jacente. Assurez-vous que le SDK .NET 6.0 est installé sur votre machine. Vous pouvez le télécharger à partir du site officiel de [**Site web .NET**](https://dotnet.microsoft.com/download/dotnet/6.0).
Ouvrez l'invite de commande ou le terminal : Procédez de la même manière que précédemment.
pip install IronXL
Cette commande collecte, télécharge et installe la bibliothèque IronXL et ses dépendances à partir de l'index des paquets Python (PyPI).
Comme nous avons tout mis en place, nous allons passer à la lecture des fichiers Excel en utilisant les deux bibliothèques. Le fichier Excel de démonstration que nous allons lire contient les valeurs suivantes, dont les lignes d'en-tête sont Nom, Marques et Res :
Importez la bibliothèque Pandas et utilisez la fonction read_excel() Fonction permettant de lire les données d'une colonne dans un fichier Excel.
import pandas as pd
# Read the Excel file
df = pd.read_excel("file.xlsx")
Lors de l'utilisation de la fonction read_excel de Pandas(), vous pouvez spécifier plusieurs options à afficher selon vos besoins :
header : Spécifie la ligne du fichier Excel à utiliser comme nom de colonne. Vous pouvez lui attribuer la valeur None pour indiquer qu'il n'y a pas de ligne d'en-tête, ou vous pouvez fournir un entier indiquant le numéro de la ligne. S'ils sont ignorés, les en-têtes sont mis à bool default true, et les positions de la première ligne sont affichées en tant qu'étiquettes de la ligne d'en-tête.
index_col : Spécifie la ou les colonnes à utiliser comme index du DataFrame. Vous pouvez transmettre un seul nom de colonne ou un index de colonne. Vous pouvez également transmettre une liste de noms de colonnes ou d'indices de colonnes pour créer un MultiIndex.
nom_de_la_feuille : Spécifie la feuille(s) à lire à partir du fichier Excel. Vous pouvez fournir le nom de la feuille sous la forme d'une chaîne de caractères ou d'un nombre entier indiquant les positions de la feuille à l'index zéro.
usecols : Spécifie les colonnes à lire à partir du fichier Excel. Vous pouvez transmettre un nom de colonne unique ou un index de colonne. Vous pouvez également passer une liste de noms de colonnes ou d'indices de colonnes pour lire des colonnes spécifiques.
dtype : Spécifie les types de données pour les colonnes. Vous pouvez transmettre un dictionnaire dont les clés sont des noms de colonnes ou des indices de colonnes et dont les valeurs sont les types de données souhaités.
convertisseurs : Spécifie les fonctions à appliquer aux colonnes pour une analyse personnalisée. Vous pouvez transmettre un dictionnaire dont les clés sont des noms de colonnes ou des indices de colonnes et les valeurs des fonctions.
na_values : Spécifie des chaînes de caractères supplémentaires à reconnaître comme NaN (Pas un numéro) valeurs. Vous pouvez passer une liste de chaînes de caractères à traiter comme NaN.
parse_dates : Spécifie quelles colonnes doivent être analysées comme des dates. Vous pouvez transmettre un nom de colonne unique ou un index de colonne. Vous pouvez également transmettre une liste de noms de colonnes ou d'indices à analyser en tant que dates.
date_parser : Spécifie une fonction à utiliser pour analyser les dates. Vous pouvez passer une fonction qui accepte une chaîne de caractères et renvoie un objet datetime.
skiprows : Spécifie le nombre de lignes à sauter au début du fichier Excel.
Ces options offrent une certaine flexibilité lors de la lecture de fichiers Excel avec Pandas, vous permettant de personnaliser le processus de lecture en fonction de vos besoins spécifiques.
Affiche le contenu du DataFrame.
print(df)
Voici le résultat du code ci-dessus :
Étape 1: Importez la bibliothèque IronXL et utilisez la fonction WorkBook.Load() pour charger le fichier Excel. Dans le paramètre de la méthode Load, vous pouvez passer les URL de fichiers valides, l'objet de chemin de fichier local ou le nom du fichier s'il se trouve dans le même répertoire que le script.
from ironxl import WorkBook
# Load the Excel file like object
workbook = WorkBook.Load("file.xlsx")
Étape 2: Avec IronXL, vous pouvez demander plusieurs feuilles et également imprimer des étiquettes de colonnes. Accédez aux feuilles de calcul et aux cellules pour lire les données stockées dans les colonnes. Les cellules peuvent être de n'importe quel type de données, comme des colonnes numériques ou des colonnes de chaînes de caractères. Les valeurs des cellules peuvent être converties en int en analysant les colonnes de chaînes en valeurs numériques à l'aide de la propriété IntValue et vice versa.
# Access the first worksheet
# Loads the first sheet from list of int default worksheets
worksheet = workbook.DefaultWorkSheet
# Select a cell and return the converted value
cell_value = worksheet ["A2"].IntValue
print(cell_value)
# Read from the entire worksheet elegantly.
for cell in worksheet:
print("Cell {} has value '{}'".format(cell.AddressString, cell.Text))
Voici la sortie du code ci-dessus avec un format d'affichage adéquat qui illustre la polyvalence d'IronXL :
Pour plus d'informations sur l'utilisation des fichiers Excel, veuillez consulter le site suivant exemples de code page.
En conclusion, les Pandas et les IronXL offrent des méthodes efficaces pour lire des fichiers Excel en Python. Cependant, IronXL présente plusieurs avantages par rapport à Pandas, notamment en termes de facilité d'utilisation, de performances et de capacités de traitement spécialisées d'Excel. L'API intuitive et les fonctionnalités complètes d'IronXL en font un choix supérieur pour les projets nécessitant des tâches de manipulation Excel étendues.
En outre, IronXL élimine la nécessité de recourir à des dépendances externes telles que Microsoft Excel ou Excel Interop, ce qui simplifie le processus de développement et améliore la portabilité sur différentes plates-formes. Par conséquent, pour les développeurs Python à la recherche d'une solution robuste et efficace pour les opérations sur les fichiers Excel, IronXL apparaît comme le choix privilégié, offrant de meilleures facilités et des fonctionnalités améliorées par rapport à Pandas. Pour de plus amples informations sur IronXL, veuillez consulter le site suivant documentation page.
IronXL fournit une essai gratuit pour tester ses fonctionnalités et sa faisabilité pour vos projets Python. Cet essai permet aux développeurs d'explorer l'ensemble des fonctionnalités et des capacités offertes par IronXL sans engagement financier préalable. Que vous envisagiez d'utiliser IronXL pour des tâches d'importation/exportation de données, de génération de rapports ou d'analyse de données, la version d'essai gratuite vous offre la possibilité d'évaluer ses performances et son adéquation à vos besoins spécifiques.
Pour plus d'informations sur les options de licence et pour télécharger la version d'essai gratuite, visitez le site Web d'IronXL à l'adresse suivante page de licence. Vous y trouverez des informations détaillées sur les conditions de licence, y compris les options d'utilisation commerciale et d'assistance. Pour commencer à utiliser IronXL et découvrir ses avantages par vous-même, téléchargez la bibliothèque à l'adresse suivante ici.
9 produits de l'API .NET pour vos documents de bureau