Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Excel-Dateien sind bei der Datenanalyse und -manipulation allgegenwärtig und bieten eine bequeme Möglichkeit, Tabellendaten zu speichern und zu organisieren. In Python gibt es mehrere Bibliotheken für Lesen von Excel-Dateien, jede mit ihren eigenen Funktionen und Möglichkeiten. Zwei bekannte Optionen sind Pandas und IronXL, die beide effiziente Methoden zum Lesen von Excel-Dateien in Python anbieten.
In diesem Artikel vergleichen wir die Funktionalität und Leistung von *Pandas und IronXL um Excel-Dateien in Python zu lesen.
*Pandas ist eine leistungsstarke Open-Source-Bibliothek zur Datenanalyse und -manipulation für Python. Es stellt die Datenstruktur DataFrame vor, die eine zweidimensionale, beschriftete Datenstruktur mit Spalten potenziell unterschiedlicher Typen ist. Pandas bietet eine breite Palette von Funktionen für die Datenmanipulation, einschließlich des Lesens und Schreibens von Daten aus verschiedenen Quellen, wie CSV-Dateien, SQL-Datenbanken und Excel-Dateien.
Zu den wichtigsten Merkmalen von Pandas gehören:
Pandas führt die DataFrame-Datenstruktur ein, die im Wesentlichen eine zweidimensionale, beschriftete Datenstruktur mit Spalten von potenziell unterschiedlichen Typen ist. Sie ähnelt einer Tabellenkalkulation oder einer SQL-Tabelle und macht es einfach, Operationen wie Filtern, Gruppieren und Aggregieren auf tabellarischen Daten durchzuführen.
Pandas bietet eine breite Palette von Funktionen zur Datenmanipulation, einschließlich Zusammenführen, Umformen, Zerlegen, Indizieren und Pivotieren von Daten. Mit diesen Operationen können Benutzer Daten effizient bereinigen, umwandeln und für die Analyse oder Visualisierung vorbereiten.
Pandas bietet robuste Unterstützung für die Arbeit mit Zeitreihendaten, einschließlich Werkzeugen für die Indizierung von Datum/Zeit und Resampling, sowie bequeme Methoden für die Behandlung fehlender Daten und die Konvertierung von Zeitzonen.
Pandas kann nahtlos mit verschiedenen Python-Bibliotheken zusammenarbeiten, die häufig in der Datenanalyse und bei wissenschaftlichen Berechnungen eingesetzt werden, darunter NumPy, Matplotlib und Scikit-learn. Diese Interoperabilität ermöglicht es den Benutzern, die Stärken verschiedener Bibliotheken innerhalb eines einzigen Analyse-Workflows zu nutzen.
Insgesamt ist Pandas ein leistungsfähiges Werkzeug zur Datenmanipulation und -analyse in Python, das in verschiedenen Bereichen wie Finanzen, Wirtschaft, Biologie und Sozialwissenschaften weit verbreitet ist.
IronXL ist eine Python-Bibliothek, die speziell für die Arbeit mit Excel-Dateien entwickelt wurde. Es bietet eine intuitive API zum Lesen, Schreiben und Manipulieren von Excel-Dokumenten in Python. IronXL zielt darauf ab, die Arbeit mit Excel-Dateien zu vereinfachen, indem es eine unkomplizierte Benutzeroberfläche bietet und externe Abhängigkeiten wie Microsoft Excel oder Excel Interop überflüssig macht.
Im Folgenden werden einige der wichtigsten Merkmale von IronXL aufgeführt:
IronXL bietet eine Python 3+ Excel-Dokumenten-API, die intuitiv und einfach zu bedienen ist und Entwicklern das nahtlose Lesen, Bearbeiten und Erstellen von Excel-Tabellendateien ermöglicht.
IronXL wurde für Python 3+ entwickelt und ist mit Windows-, Mac-, Linux- und Cloud-Plattformen kompatibel, was die Flexibilität in den Einsatzumgebungen gewährleistet.
Entwickler können mit Excel-Dateien in Python arbeiten, ohne Microsoft Office zu installieren oder sich mit Excel Interop zu befassen, was den Integrationsprozess vereinfacht und die Abhängigkeiten minimiert.
Unterstützt Python 3.7+ auf verschiedenen Betriebssystemen wie Microsoft Windows, macOS, Linux, Docker, Azure und AWS. Kompatibel mit gängigen IDEs wie JetBrains PyCharm und anderen Python-IDEs.
Erstellen, Laden, Speichern und Exportieren von Tabellenkalkulationen in verschiedenen Formaten wie XLS, XLSX, XSLT, XLSM, CSV, TSV, JSON, HTML, Binary und Byte Array.
Bearbeiten Sie Metadaten, legen Sie Berechtigungen und Passwörter fest, erstellen und entfernen Sie Arbeitsblätter, ändern Sie das Blattlayout, bearbeiten Sie Bilder und vieles mehr.
Führen Sie verschiedene Operationen mit Zellbereichen durch, z. B. Sortieren, Trimmen, Löschen, Kopieren, Suchen und Ersetzen von Werten, Setzen von Hyperlinks und Zusammenführen und Aufheben der Zusammenführung von Zellen.
Passen Sie die Zellstile an, einschließlich Schriftart, Größe, Rahmen, Ausrichtung und Hintergrundmuster, und wenden Sie bedingte Formatierungen an.
Nutzen Sie mathematische Funktionen wie Durchschnitt, Summe, Minimum und Maximum, und legen Sie Zelldatenformate wie Text, Zahl, Formel, Datum, Währung, Wissenschaft, Zeit, Boolesche und benutzerdefinierte Formate fest.
Zunächst einmal muss Python auf Ihrem Rechner installiert sein. Installieren Sie die neueste Version von Python 3.x von der offiziellen Python-Website. Stellen Sie bei der Installation von Python sicher, dass Sie die Option wählen, Python zum Systempfad hinzuzufügen, um den Zugriff von der Kommandozeile aus zu ermöglichen.
Um die Funktionalität von Pandas und IronXL beim Lesen von Excel-Dateien zu demonstrieren, erstellen wir ein Python-Projekt mit PyCharm, einer beliebten integrierten Entwicklungsumgebung (IDE) für Python.
Öffnen Sie PyCharm und erstellen Sie ein neues Python-Projekt.
Konfigurieren Sie das Projekt wie folgt:
Geben Sie dem Projekt einen Namen. In diesem Fall "pythonReadExcel"
Wählen Sie den gewünschten Ort für das Projekt
Wählen Sie den Typ des Dolmetschers: Projekt venv
Python-Version auswählen
Um Pandas in Ihrem Projekt zu installieren, können Sie die folgenden Schritte ausführen:
Eingabeaufforderung oder Terminal öffnen: In PyCharm unter Ansicht->Werkzeug Fenster->Terminal.
pip install pandas
Dieser Befehl installiert die Pandas-Bibliothek und ihre Abhängigkeiten aus dem Python Package Index (PyPI).
![Pandas Read Excel-Alternativen (Ohne Interop zu verwenden) IronXL for Python: Abbildung 4 - Konsolenausgabe nach der Installation von Pandas](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-4.webp)
pip install openpyxl
Um IronXL in einem Python-Projekt zu installieren, gehen Sie folgendermaßen vor:
Voraussetzungen sicherstellen: Vergewissern Sie sich vor der Installation von IronXL, dass Sie die erforderlichen Voraussetzungen auf Ihrem System installiert haben:
**.NET 6.0 SDK**: IronXL stützt sich auf die IronXL .NET-Bibliothek, insbesondere .NET 6.0, als zugrunde liegende Technologie. Stellen Sie sicher, dass Sie das .NET 6.0 SDK auf Ihrem Rechner installiert haben. Sie können es von der offiziellen Website [**.NET-Website**](https://dotnet.microsoft.com/download/dotnet/6.0).
Öffnen Sie die Eingabeaufforderung oder das Terminal: Gehen Sie genauso vor wie zuvor.
pip-Installation IronXL
Dieser Befehl sammelt, lädt und installiert die IronXL-Bibliothek und ihre Abhängigkeiten aus dem Python Package Index (PyPI).
Nachdem wir alles eingerichtet haben, werden wir mit dem Lesen von Excel-Dateien mit beiden Bibliotheken fortfahren. Die Demo-Excel-Datei, die wir lesen werden, enthält die folgenden Werte mit den Kopfzeilen Name, Marks und Res:
Importieren Sie die Pandas-Bibliothek und verwenden Sie die Funktion read_excel() Funktion zum Lesen von Spaltendaten aus der Excel-Datei.
import pandas as pd
# Read the Excel file
df = pd.read_excel("file.xlsx")
Bei Verwendung von Pandas' read_excel() können Sie mehrere Optionen für die Anzeige nach Bedarf festlegen:
Kopfzeile: Gibt an, welche Zeile in der Excel-Datei als Spaltennamen verwendet werden soll. Sie können ihn auf None setzen, um anzugeben, dass es keine Kopfzeile gibt, oder Sie können eine ganze Zahl angeben, die die Zeilennummer angibt. Wenn sie übersprungen werden, werden die Kopfzeilen auf bool default true gesetzt, und die ersten Zeilenpositionen werden als Kopfzeilenbeschriftungen angezeigt.
index_col: Gibt an, welche Spalte(n) als Index des DataFrame zu verwenden ist/sind. Sie können einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Spaltenindizes übergeben, um einen MultiIndex zu erstellen.
Blatt_name: Gibt das Blatt an(s) um aus der Excel-Datei zu lesen. Sie können den Blattnamen als Zeichenkette oder eine ganze Zahl angeben, die die mit Null indizierten Blattpositionen angibt.
usecols: Gibt an, welche Spalten aus der Excel-Datei gelesen werden sollen. Sie können entweder einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Spaltenindizes übergeben, um bestimmte Spalten zu lesen.
dtype: Gibt die Datentypen für Spalten an. Sie können ein Wörterbuch übergeben, dessen Schlüssel Spaltennamen oder Spaltenindizes sind und dessen Werte die gewünschten Datentypen sind.
Konverter: Gibt Funktionen an, die auf Spalten für benutzerdefiniertes Parsing angewendet werden. Sie können ein Wörterbuch übergeben, in dem die Schlüssel Spaltennamen oder Spaltenindizes und die Werte Funktionen sind.
na_values: Gibt zusätzliche Zeichenfolgen an, die als NaN erkannt werden sollen (Keine Nummer) werte. Sie können eine Liste von Zeichenketten übergeben, die als NaN behandelt werden sollen.
parse_dates: Gibt an, welche Spalten als Datum analysiert werden sollen. Sie können entweder einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Indizes übergeben, die als Daten analysiert werden sollen.
date_parser: Gibt eine Funktion an, die für das Parsen von Datumsangaben verwendet wird. Sie können eine Funktion übergeben, die eine Zeichenkette annimmt und ein Datetime-Objekt zurückgibt.
Sprungzeilen: Gibt die Anzahl der Zeilen an, die am Anfang der Excel-Datei übersprungen werden sollen.
Diese Optionen bieten Flexibilität beim Lesen von Excel-Dateien mit Pandas, so dass Sie den Leseprozess an Ihre spezifischen Anforderungen anpassen können.
Den Inhalt des DataFrame anzeigen.
print(df)
Hier ist die Ausgabe des obigen Codes:
Schritt 1: Importieren Sie die IronXL-Bibliothek und verwenden Sie die Funktion WorkBook.Load() Methode zum Laden der Excel-Datei. Im Parameter der Load-Methode können Sie die gültigen Datei-URLs, das lokale Dateipfadobjekt oder den Dateinamen übergeben, wenn sich die Datei im selben Verzeichnis wie das Skript befindet.
from ironxl import WorkBook
# Load the Excel file like object
workbook = WorkBook.Load("file.xlsx")
Schritt 2: Mit IronXL können Sie mehrere Blätter anfordern und auch Spaltenetiketten drucken. Greifen Sie auf die Arbeitsblätter und Zellen zu, um die in den Spalten gespeicherten Daten zu lesen. Die Zellen können einen beliebigen Datentyp haben, z. B. numerische Spalten oder Zeichenkettenspalten. Die Zellwerte können durch Parsing von String-Spalten in numerische Werte umgewandelt werden, indem die Eigenschaft IntValue verwendet wird und umgekehrt.
# Access the first worksheet
# Loads the first sheet from list of int default worksheets
worksheet = workbook.DefaultWorkSheet
# Select a cell and return the converted value
cell_value = worksheet ["A2"].IntValue
print(cell_value)
# Read from the entire worksheet elegantly.
for cell in worksheet:
print("Cell {} has value '{}'".format(cell.AddressString, cell.Text))
Hier ist die Ausgabe des obigen Codes mit einem geeigneten Anzeigeformat, das die Vielseitigkeit von IronXL zeigt:
Weitere Informationen zur Arbeit mit Excel-Dateien finden Sie hier Codebeispiele seite.
Zusammenfassend lässt sich sagen, dass sowohl Pandas als auch IronXL bieten effiziente Methoden zum Lesen von Excel-Dateien in Python. IronXL bietet jedoch mehrere Vorteile gegenüber Pandas, insbesondere in Bezug auf Benutzerfreundlichkeit, Leistung und spezielle Excel-Verarbeitungsfunktionen. Die intuitive API und die umfassenden Funktionen von IronXL machen es zu einer hervorragenden Wahl für Projekte, die umfangreiche Excel-Manipulationsaufgaben erfordern.
Darüber hinaus macht IronXL externe Abhängigkeiten wie Microsoft Excel oder Excel Interop überflüssig, was den Entwicklungsprozess vereinfacht und die Portabilität über verschiedene Plattformen hinweg verbessert. Für Python-Entwickler, die eine robuste und effiziente Lösung für Excel-Datei-Operationen suchen, ist IronXL daher die erste Wahl, da es im Vergleich zu Pandas bessere Möglichkeiten und erweiterte Funktionen bietet. Ausführlichere Informationen über IronXL finden Sie hier Dokumentation seite.
IronXL bietet eine kostenlos testen um seine Funktionalität und Machbarkeit für Ihre Python-Projekte zu testen. Diese Testversion ermöglicht es Entwicklern, den vollen Funktionsumfang von IronXL zu erkunden, ohne sich im Voraus finanziell zu verpflichten. Unabhängig davon, ob Sie IronXL für den Datenimport/-export, die Erstellung von Berichten oder die Datenanalyse in Betracht ziehen, bietet Ihnen die kostenlose Testversion die Möglichkeit, die Leistungsfähigkeit und Eignung für Ihre spezifischen Anforderungen zu beurteilen.
Weitere Informationen zu den Lizenzierungsoptionen und zum Herunterladen der kostenlosen Testversion finden Sie auf der IronXL-Website unter Lizenzierungsseite. Hier finden Sie detaillierte Informationen zu den Lizenzbedingungen, einschließlich Optionen für die kommerzielle Nutzung und den Support. Um mit IronXL zu beginnen und die Vorteile aus erster Hand zu erfahren, laden Sie die Bibliothek herunter unter *hier.
9 .NET API-Produkte für Ihre Bürodokumente