VERGLEICH MIT ANDEREN KOMPONENTEN

Pandas Read Excel Alternativen (ohne Verwendung von Interop) | IronXL for Python

Chaknith Bin

3. April 2024

Teilen Sie:

Excel-Dateien sind bei der Datenanalyse und -manipulation allgegenwärtig und bieten eine bequeme Möglichkeit, Tabellendaten zu speichern und zu organisieren. In Python gibt es mehrere Bibliotheken für das Lesen von Excel-Dateien, jede mit ihrem eigenen Funktionsumfang und Fähigkeiten. Zwei bekannte Optionen sind Pandas und IronXL, die beide effiziente Methoden zum Lesen von Excel-Dateien in Python anbieten.

In diesem Artikel vergleichen wir die Funktionalität und Leistung von Pandas und IronXL zum Lesen von Excel-Dateien in Python.

Pandas - Open-Source-Bibliothek

Pandas ist eine leistungsstarke Open-Source-Bibliothek für Datenanalyse und -manipulation in Python. Es stellt die Datenstruktur DataFrame vor, die eine zweidimensionale, beschriftete Datenstruktur mit Spalten potenziell unterschiedlicher Typen ist. Pandas bietet eine breite Palette von Funktionen für die Datenmanipulation, einschließlich des Lesens und Schreibens von Daten aus verschiedenen Quellen, wie CSV-Dateien, SQL-Datenbanken und Excel-Dateien.

Zu den wichtigsten Merkmalen von Pandas gehören:

DataFrame

Pandas führt die DataFrame-Datenstruktur ein, die im Wesentlichen eine zweidimensionale, beschriftete Datenstruktur mit Spalten von potenziell unterschiedlichen Typen ist. Sie ähnelt einer Tabellenkalkulation oder einer SQL-Tabelle und macht es einfach, Operationen wie Filtern, Gruppieren und Aggregieren auf tabellarischen Daten durchzuführen.

Datenmanipulation

Pandas bietet eine breite Palette von Funktionen zur Datenmanipulation, einschließlich Zusammenführen, Umformen, Zerlegen, Indizieren und Pivotieren von Daten. Mit diesen Operationen können Benutzer Daten effizient bereinigen, umwandeln und für die Analyse oder Visualisierung vorbereiten.

Zeitreihenfunktionalität

Pandas bietet robuste Unterstützung für die Arbeit mit Zeitreihendaten, einschließlich Werkzeugen für die Indizierung von Datum/Zeit und Resampling, sowie bequeme Methoden für die Behandlung fehlender Daten und die Konvertierung von Zeitzonen.

Integration mit Bibliotheken

Pandas kann nahtlos mit verschiedenen Python-Bibliotheken zusammenarbeiten, die häufig in der Datenanalyse und bei wissenschaftlichen Berechnungen eingesetzt werden, darunter NumPy, Matplotlib und Scikit-learn. Diese Interoperabilität ermöglicht es den Benutzern, die Stärken verschiedener Bibliotheken innerhalb eines einzigen Analyse-Workflows zu nutzen.

Insgesamt ist Pandas ein leistungsfähiges Werkzeug zur Datenmanipulation und -analyse in Python, das in verschiedenen Bereichen wie Finanzen, Wirtschaft, Biologie und Sozialwissenschaften weit verbreitet ist.

IronXL- Die Python-Excel-Bibliothek

IronXL ist eine Python-Bibliothek, die speziell für die Arbeit mit Excel-Dateien entwickelt wurde. Es bietet eine intuitive API zum Lesen, Schreiben und Manipulieren von Excel-Dokumenten in Python. IronXL zielt darauf ab, die Arbeit mit Excel-Dateien zu vereinfachen, indem es eine unkomplizierte Benutzeroberfläche bietet und externe Abhängigkeiten wie Microsoft Excel oder Excel Interop überflüssig macht.

Im Folgenden werden einige der wichtigsten Merkmale von IronXL aufgeführt:

Intuitive Python 3+ Excel-Dokument-API

IronXL bietet eine Python 3+ Excel-Dokumenten-API, die intuitiv und einfach zu bedienen ist und Entwicklern das nahtlose Lesen, Bearbeiten und Erstellen von Excel-Tabellendateien ermöglicht.

Plattformübergreifende Unterstützung

IronXL wurde für Python 3+ entwickelt und ist mit Windows-, Mac-, Linux- und Cloud-Plattformen kompatibel, was die Flexibilität in den Einsatzumgebungen gewährleistet.

Keine Notwendigkeit für Microsoft Office oder Excel Interop

Entwickler können mit Excel-Dateien in Python arbeiten, ohne Microsoft Office zu installieren oder sich mit Excel Interop zu befassen, was den Integrationsprozess vereinfacht und die Abhängigkeiten minimiert.

Kompatibilität

Unterstützt Python 3.7+ auf verschiedenen Betriebssystemen wie Microsoft Windows, macOS, Linux, Docker, Azure und AWS. Kompatibel mit gängigen IDEs wie JetBrains PyCharm und anderen Python-IDEs.

Vielseitige Handhabung von Arbeitsbüchern

Erstellen, Laden, Speichern und Exportieren von Tabellenkalkulationen in verschiedenen Formaten wie XLS, XLSX, XSLT, XLSM, CSV, TSV, JSON, HTML, Binary und Byte Array.

Leistungsstarke Arbeitsblatt-Bearbeitung

Bearbeiten Sie Metadaten, legen Sie Berechtigungen und Passwörter fest, erstellen und entfernen Sie Arbeitsblätter, ändern Sie das Blattlayout, bearbeiten Sie Bilder und vieles mehr.

Fortgeschrittene Operationen im Zellbereich

Führen Sie verschiedene Operationen mit Zellbereichen durch, z. B. Sortieren, Trimmen, Löschen, Kopieren, Suchen und Ersetzen von Werten, Setzen von Hyperlinks und Zusammenführen und Aufheben der Zusammenführung von Zellen.

Flexibles Zellenstyling

Passen Sie die Zellstile an, einschließlich Schriftart, Größe, Rahmen, Ausrichtung und Hintergrundmuster, und wenden Sie bedingte Formatierungen an.

Mathematische Funktionen und Datenformate

Nutzen Sie mathematische Funktionen wie Durchschnitt, Summe, Minimum und Maximum, und legen Sie Zelldatenformate wie Text, Zahl, Formel, Datum, Währung, Wissenschaft, Zeit, Boolesche und benutzerdefinierte Formate fest.

Erstellen eines Python-Projekts mit PyCharm

Zuerst muss Python auf Ihrem Computer installiert sein. Installieren Sie die neueste Version von Python 3.x von der offiziellen Python-Website. Stellen Sie bei der Installation von Python sicher, dass Sie die Option wählen, Python zum Systempfad hinzuzufügen, um den Zugriff von der Kommandozeile aus zu ermöglichen.

Um die Funktionalität von sowohl Pandas als auch IronXL beim Lesen von Excel-Dateien zu demonstrieren, erstellen wir ein Python-Projekt mit PyCharm, einer beliebten integrierten Entwicklungsumgebung (IDE) für Python.

Öffnen Sie PyCharm und erstellen Sie ein neues Python-Projekt.
Konfigurieren Sie das Projekt wie folgt:
- Geben Sie dem Projekt einen Namen. In diesem Fall "pythonReadExcel"
- Wählen Sie den gewünschten Ort für das Projekt
- Wählen Sie den Typ des Dolmetschers: Projekt venv
- Python-Version auswählen
Klicken Sie auf "Erstellen", um das Projekt zu erstellen.

Pandas und IronXL mit pip installieren

Installation von Pandas

Um Pandas in Ihrem Projekt zu installieren, können Sie die folgenden Schritte ausführen:

Öffnen Sie die Eingabeaufforderung oder das Terminal: In PyCharm über Ansicht->Werkzeugfenster->Terminal.
Pandas über pip installieren: Pandas kann mit dem Paketmanager pip installiert werden. Führen Sie den folgenden Befehl im Terminal aus:

    pip install pandas

    pip install pandas

SHELL

Dieser Befehl installiert die Pandas-Bibliothek und deren Abhängigkeiten vom Python Package Index (PyPI).

Pandas Excel-Alternativen lesen (ohne Interop zu verwenden) IronXL for Python: Abbildung 4 - Konsolenausgabe nach Installation von Pandas

OpenPyXL über pip installieren: OpenPyXL ist die Bibliothek, die das Lesen und Schreiben von Excel-Dateien unterstützt. Es ist eine der von Pandas verwendeten Abhängigkeiten. Bei der Installation von Pandas wird OpenPyXL automatisch installiert, falls es nicht bereits vorhanden ist. Wenn es nicht installiert ist, können Sie es mit dem folgenden Befehl im Terminal installieren:

pip install openpyxl

pip install openpyxl

SHELL

Installation von IronXL

Um IronXL in einem Python-Projekt zu installieren, gehen Sie folgendermaßen vor:

Voraussetzungen sicherstellen: Bevor Sie IronXL installieren, stellen Sie sicher, dass die notwendigen Voraussetzungen auf Ihrem System installiert sind:
.NET 6.0 SDK: IronXL basiert auf der IronXL .NET-Bibliothek, speziell .NET 6.0, als zugrunde liegende Technologie. Stellen Sie sicher, dass das .NET 6.0 SDK auf Ihrem Rechner installiert ist. Sie können es von der offiziellen .NET-Website herunterladen.
Befehlszeile oder Terminal öffnen: Machen Sie dasselbe wie zuvor.
Installation von IronXL über pip: IronXL kann mit dem pip-Paketmanager installiert werden. Führen Sie den folgenden Befehl aus:

 pip-Installation IronXL

Dieser Befehl sammelt, lädt herunter und installiert die IronXL-Bibliothek und ihre Abhängigkeiten aus dem Python Package Index (PyPI).

Alternativen zu Pandas Read Excel (Ohne Verwendung von Interop) IronXL for Python: Abbildung 5 - Konsolenausgabe von der Installation von IronXL

Lesen von Excel-Dateien mit Pandas und IronXL

Nachdem wir alles eingerichtet haben, werden wir mit dem Lesen von Excel-Dateien mit beiden Bibliotheken fortfahren. Die Demo-Excel-Datei, die wir lesen werden, enthält die folgenden Werte mit den Kopfzeilen Name, Marks und Res:

Alternativen zu Pandas Read Excel (Ohne Verwendung von Interop) IronXL für Python: Abbildung 6 - Beispiel Excel-Tabelle

Pandas verwenden

Schritt 1

Importieren Sie die Pandas-Bibliothek und verwenden Sie die read_excel()-Funktion, um Spaltendaten aus der Excel-Datei zu lesen.

import pandas as pd
# Read the Excel file
df = pd.read_excel("file.xlsx")

python

PYTHON

Wenn Sie die Pandas-Funktion read_excel() verwenden, können Sie mehrere Optionen für die Anzeige nach Bedarf angeben:

header: Gibt an, welche Zeile in der Excel-Datei als Spaltennamen verwendet werden soll. Sie können es auf None setzen, um anzuzeigen, dass es keine Kopfzeile gibt, oder Sie können eine Ganzzahl angeben, die die Zeilennummer angibt. Wenn sie übersprungen werden, werden die Kopfzeilen auf bool default true gesetzt, und die ersten Zeilenpositionen werden als Kopfzeilenbeschriftungen angezeigt.

index_col: Gibt an, welche Spalte oder Spalten als Index des DataFrame verwendet werden sollen. Sie können einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Spaltenindizes übergeben, um einen MultiIndex zu erstellen.

sheet_name: Gibt das/die Blatt/Blätter an, von dem/denen aus der Excel-Datei gelesen werden soll. Sie können den Blattnamen als String oder eine Ganzzahl angeben, die die nullbasierten Blattpositionen angibt.

usecols: Gibt an, welche Spalten aus der Excel-Datei gelesen werden sollen. Sie können entweder einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Spaltenindizes übergeben, um bestimmte Spalten zu lesen.

dtype: Gibt die Datentypen für Spalten an. Sie können ein Wörterbuch übergeben, dessen Schlüssel Spaltennamen oder Spaltenindizes sind und dessen Werte die gewünschten Datentypen sind.

Konverter: Gibt Funktionen an, die auf Spalten für benutzerdefiniertes Parsen angewendet werden sollen. Sie können ein Wörterbuch übergeben, in dem die Schlüssel Spaltennamen oder Spaltenindizes und die Werte Funktionen sind.

na_values: Gibt zusätzliche Zeichenfolgen an, die als NaN (Not a Number) Werte erkannt werden sollen. Sie können eine Liste von Zeichenketten übergeben, die als NaN behandelt werden sollen.

parse_dates: Gibt an, welche Spalten als Datum interpretiert werden sollen. Sie können entweder einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Indizes übergeben, die als Daten analysiert werden sollen.

date_parser: Gibt eine Funktion an, die zum Parsen von Datumsangaben verwendet wird. Sie können eine Funktion übergeben, die eine Zeichenkette annimmt und ein Datetime-Objekt zurückgibt.

skiprows: Gibt die Anzahl der Zeilen an, die am Anfang der Excel-Datei übersprungen werden sollen.

Diese Optionen bieten Flexibilität beim Lesen von Excel-Dateien mit Pandas, so dass Sie den Leseprozess an Ihre spezifischen Anforderungen anpassen können.

Schritt 2

Den Inhalt des DataFrame anzeigen.

print(df)

python

PYTHON

Hier ist die Ausgabe des obigen Codes:

Alternativen zu Pandas Read Excel (Ohne Verwendung von Interop) IronXL for Python: Abbildung 7 - Ausgabe des ausgeführten Pandas-Codes

IronXL verwenden

Schritt 1: Importieren Sie die IronXL-Bibliothek und verwenden Sie die Methode WorkBook.Load(), um die Excel-Datei zu laden. Im Parameter der Load-Methode können Sie die gültigen Dateipfade, ein lokales Dateipfadbjekt oder den Dateinamen angeben, wenn sich die Datei im selben Verzeichnis wie das Skript befindet.

from ironxl import WorkBook
# Load the Excel file like object
workbook = WorkBook.Load("file.xlsx")

python

PYTHON

Schritt 2: Mit IronXL können Sie mehrere Blätter anfordern und auch Spaltenbeschriftungen drucken. Greifen Sie auf die Arbeitsblätter und Zellen zu, um die in den Spalten gespeicherten Daten zu lesen. Die Zellen können einen beliebigen Datentyp haben, z. B. numerische Spalten oder Zeichenkettenspalten. Die Zellwerte können durch Parsing von String-Spalten in numerische Werte umgewandelt werden, indem die Eigenschaft IntValue verwendet wird und umgekehrt.

# Access the first worksheet
# Loads the first sheet from list of int default worksheets
worksheet = workbook.DefaultWorkSheet
# Select a cell and return the converted value
cell_value = worksheet ["A2"].IntValue
print(cell_value)
# Read from the entire worksheet elegantly.
for cell in worksheet:
    print("Cell {} has value '{}'".format(cell.AddressString, cell.Text))

python

PYTHON

Hier ist die Ausgabe des obigen Codes mit einem geeigneten Anzeigeformat, das die Vielseitigkeit von IronXL zeigt:

Alternativen zu Pandas Read Excel (Ohne Verwendung von Interop) IronXL for Python: Abbildung 8 - Konsolenausgabe aus dem IronXL-Code

Für weitere Informationen zur Arbeit mit Excel-Dateien besuchen Sie bitte diese Codebeispiele-Seite.

Schlussfolgerung

Abschließend bieten sowohl Pandas als auch IronXL effiziente Methoden zum Lesen von Excel-Dateien in Python. IronXL bietet jedoch mehrere Vorteile gegenüber Pandas, insbesondere in Bezug auf Benutzerfreundlichkeit, Leistung und spezielle Excel-Verarbeitungsfunktionen. Die intuitive API und die umfassenden Funktionen von IronXL machen es zu einer hervorragenden Wahl für Projekte, die umfangreiche Excel-Manipulationsaufgaben erfordern.

Darüber hinaus macht IronXL externe Abhängigkeiten wie Microsoft Excel oder Excel Interop überflüssig, was den Entwicklungsprozess vereinfacht und die Portabilität über verschiedene Plattformen hinweg verbessert. Für Python-Entwickler, die eine robuste und effiziente Lösung für Excel-Datei-Operationen suchen, ist IronXL daher die erste Wahl, da es im Vergleich zu Pandas bessere Möglichkeiten und erweiterte Funktionen bietet. Für detailliertere Informationen zu IronXL besuchen Sie bitte diese Dokumentationsseite.

IronXL bietet eine kostenlose Testversion an, um die Funktionalität und Machbarkeit für Ihre Python-Projekte zu testen. Diese Testversion ermöglicht es Entwicklern, den vollen Funktionsumfang von IronXL zu erkunden, ohne sich im Voraus finanziell zu verpflichten. Unabhängig davon, ob Sie IronXL für den Datenimport/-export, die Erstellung von Berichten oder die Datenanalyse in Betracht ziehen, bietet Ihnen die kostenlose Testversion die Möglichkeit, die Leistungsfähigkeit und Eignung für Ihre spezifischen Anforderungen zu beurteilen.

Für weitere Informationen zu den Lizenzierungsoptionen und um die kostenlose Testversion herunterzuladen, besuchen Sie die Lizenzierungsseite der IronXL-Website. Hier finden Sie detaillierte Informationen zu den Lizenzbedingungen, einschließlich Optionen für die kommerzielle Nutzung und den Support. Um mit IronXL zu beginnen und seine Vorteile aus erster Hand zu erleben, laden Sie die Bibliothek von hier herunter.

Chaknith Bin

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Chaknith arbeitet an IronXL und IronBarcode. Er hat tiefgehende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Erkenntnisse aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentation und einem insgesamt besseren Erlebnis bei.

< PREVIOUS
Ein Vergleich zwischen OpenpyXL Python und IronXL Python