VERGLEICH MIT ANDEREN KOMPONENTEN

Pandas Read Excel Alternativen (ohne Verwendung von Interop) | IronXL for Python

Veröffentlicht 3. April 2024
Teilen Sie:

Excel-Dateien sind bei der Datenanalyse und -manipulation allgegenwärtig und bieten eine bequeme Möglichkeit, Tabellendaten zu speichern und zu organisieren. In Python gibt es mehrere Bibliotheken für Lesen von Excel-Dateien, jede mit ihren eigenen Funktionen und Möglichkeiten. Zwei bekannte Optionen sind Pandas und IronXL, die beide effiziente Methoden zum Lesen von Excel-Dateien in Python anbieten.

In diesem Artikel vergleichen wir die Funktionalität und Leistung von *Pandas und IronXL um Excel-Dateien in Python zu lesen.

Pandas - Open-Source-Bibliothek

*Pandas ist eine leistungsstarke Open-Source-Bibliothek zur Datenanalyse und -manipulation für Python. Es stellt die Datenstruktur DataFrame vor, die eine zweidimensionale, beschriftete Datenstruktur mit Spalten potenziell unterschiedlicher Typen ist. Pandas bietet eine breite Palette von Funktionen für die Datenmanipulation, einschließlich des Lesens und Schreibens von Daten aus verschiedenen Quellen, wie CSV-Dateien, SQL-Datenbanken und Excel-Dateien.

Zu den wichtigsten Merkmalen von Pandas gehören:

DataFrame

Pandas führt die DataFrame-Datenstruktur ein, die im Wesentlichen eine zweidimensionale, beschriftete Datenstruktur mit Spalten von potenziell unterschiedlichen Typen ist. Sie ähnelt einer Tabellenkalkulation oder einer SQL-Tabelle und macht es einfach, Operationen wie Filtern, Gruppieren und Aggregieren auf tabellarischen Daten durchzuführen.

Datenmanipulation

Pandas bietet eine breite Palette von Funktionen zur Datenmanipulation, einschließlich Zusammenführen, Umformen, Zerlegen, Indizieren und Pivotieren von Daten. Mit diesen Operationen können Benutzer Daten effizient bereinigen, umwandeln und für die Analyse oder Visualisierung vorbereiten.

Zeitreihenfunktionalität

Pandas bietet robuste Unterstützung für die Arbeit mit Zeitreihendaten, einschließlich Werkzeugen für die Indizierung von Datum/Zeit und Resampling, sowie bequeme Methoden für die Behandlung fehlender Daten und die Konvertierung von Zeitzonen.

Integration mit Bibliotheken

Pandas kann nahtlos mit verschiedenen Python-Bibliotheken zusammenarbeiten, die häufig in der Datenanalyse und bei wissenschaftlichen Berechnungen eingesetzt werden, darunter NumPy, Matplotlib und Scikit-learn. Diese Interoperabilität ermöglicht es den Benutzern, die Stärken verschiedener Bibliotheken innerhalb eines einzigen Analyse-Workflows zu nutzen.

Insgesamt ist Pandas ein leistungsfähiges Werkzeug zur Datenmanipulation und -analyse in Python, das in verschiedenen Bereichen wie Finanzen, Wirtschaft, Biologie und Sozialwissenschaften weit verbreitet ist.

IronXL- Die Python-Excel-Bibliothek

IronXL ist eine Python-Bibliothek, die speziell für die Arbeit mit Excel-Dateien entwickelt wurde. Es bietet eine intuitive API zum Lesen, Schreiben und Manipulieren von Excel-Dokumenten in Python. IronXL zielt darauf ab, die Arbeit mit Excel-Dateien zu vereinfachen, indem es eine unkomplizierte Benutzeroberfläche bietet und externe Abhängigkeiten wie Microsoft Excel oder Excel Interop überflüssig macht.

Im Folgenden werden einige der wichtigsten Merkmale von IronXL aufgeführt:

Intuitive Python 3+ Excel-Dokument-API

IronXL bietet eine Python 3+ Excel-Dokumenten-API, die intuitiv und einfach zu bedienen ist und Entwicklern das nahtlose Lesen, Bearbeiten und Erstellen von Excel-Tabellendateien ermöglicht.

Plattformübergreifende Unterstützung

IronXL wurde für Python 3+ entwickelt und ist mit Windows-, Mac-, Linux- und Cloud-Plattformen kompatibel, was die Flexibilität in den Einsatzumgebungen gewährleistet.

Keine Notwendigkeit für Microsoft Office oder Excel Interop

Entwickler können mit Excel-Dateien in Python arbeiten, ohne Microsoft Office zu installieren oder sich mit Excel Interop zu befassen, was den Integrationsprozess vereinfacht und die Abhängigkeiten minimiert.

Kompatibilität

Unterstützt Python 3.7+ auf verschiedenen Betriebssystemen wie Microsoft Windows, macOS, Linux, Docker, Azure und AWS. Kompatibel mit gängigen IDEs wie JetBrains PyCharm und anderen Python-IDEs.

Vielseitige Handhabung von Arbeitsbüchern

Erstellen, Laden, Speichern und Exportieren von Tabellenkalkulationen in verschiedenen Formaten wie XLS, XLSX, XSLT, XLSM, CSV, TSV, JSON, HTML, Binary und Byte Array.

Leistungsstarke Arbeitsblatt-Bearbeitung

Bearbeiten Sie Metadaten, legen Sie Berechtigungen und Passwörter fest, erstellen und entfernen Sie Arbeitsblätter, ändern Sie das Blattlayout, bearbeiten Sie Bilder und vieles mehr.

Fortgeschrittene Operationen im Zellbereich

Führen Sie verschiedene Operationen mit Zellbereichen durch, z. B. Sortieren, Trimmen, Löschen, Kopieren, Suchen und Ersetzen von Werten, Setzen von Hyperlinks und Zusammenführen und Aufheben der Zusammenführung von Zellen.

Flexibles Zellenstyling

Passen Sie die Zellstile an, einschließlich Schriftart, Größe, Rahmen, Ausrichtung und Hintergrundmuster, und wenden Sie bedingte Formatierungen an.

Mathematische Funktionen und Datenformate

Nutzen Sie mathematische Funktionen wie Durchschnitt, Summe, Minimum und Maximum, und legen Sie Zelldatenformate wie Text, Zahl, Formel, Datum, Währung, Wissenschaft, Zeit, Boolesche und benutzerdefinierte Formate fest.

Erstellen eines Python-Projekts mit PyCharm

Zunächst einmal muss Python auf Ihrem Rechner installiert sein. Installieren Sie die neueste Version von Python 3.x von der offiziellen Python-Website. Stellen Sie bei der Installation von Python sicher, dass Sie die Option wählen, Python zum Systempfad hinzuzufügen, um den Zugriff von der Kommandozeile aus zu ermöglichen.

Um die Funktionalität von Pandas und IronXL beim Lesen von Excel-Dateien zu demonstrieren, erstellen wir ein Python-Projekt mit PyCharm, einer beliebten integrierten Entwicklungsumgebung (IDE) für Python.

  1. Öffnen Sie PyCharm und erstellen Sie ein neues Python-Projekt.

    Pandas Read Excel-Alternativen (Ohne Interop zu verwenden)    IronXL for Python: Abbildung 1 - Erstellen eines neuen PyCharm-Projekts

  2. Konfigurieren Sie das Projekt wie folgt:

    • Geben Sie dem Projekt einen Namen. In diesem Fall "pythonReadExcel"

    • Wählen Sie den gewünschten Ort für das Projekt

    • Wählen Sie den Typ des Dolmetschers: Projekt venv

    • Python-Version auswählen

      Pandas Read Excel-Alternativen (Ohne Interop zu verwenden)    IronXL for Python: Abbildung 2 - Konfigurieren des Projektnamens, des Interpretertyps und der Python-Version

  3. Klicken Sie auf "Erstellen", um das Projekt zu erstellen.

Pandas und IronXL mit pip installieren

Installation von Pandas

Um Pandas in Ihrem Projekt zu installieren, können Sie die folgenden Schritte ausführen:

  1. Eingabeaufforderung oder Terminal öffnen: In PyCharm unter Ansicht->Werkzeug Fenster->Terminal.

    Pandas Read Excel-Alternativen (Ohne Interop zu verwenden)    IronXL for Python: Abbildung 3 - Öffnen des Terminals

  2. Pandas über pip installieren: Pandas kann mit dem Paketmanager pip installiert werden. Führen Sie den folgenden Befehl im Terminal aus:
    pip install pandas

Dieser Befehl installiert die Pandas-Bibliothek und ihre Abhängigkeiten aus dem Python Package Index (PyPI).

![Pandas Read Excel-Alternativen (Ohne Interop zu verwenden)    IronXL for Python: Abbildung 4 - Konsolenausgabe nach der Installation von Pandas](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-4.webp)
  1. Installieren Sie OpenPyXL über pip: OpenPyXL ist die Bibliothek, die beim Lesen und Schreiben von Excel-Dateien hilft. Es ist eine der von Pandas verwendeten Abhängigkeiten. Bei der Installation von Pandas wird OpenPyXL automatisch installiert, falls es nicht bereits vorhanden ist. Wenn es nicht installiert ist, können Sie es mit dem folgenden Befehl im Terminal installieren:
pip install openpyxl

Installation von IronXL

Um IronXL in einem Python-Projekt zu installieren, gehen Sie folgendermaßen vor:

  1. Voraussetzungen sicherstellen: Vergewissern Sie sich vor der Installation von IronXL, dass Sie die erforderlichen Voraussetzungen auf Ihrem System installiert haben:

     **.NET 6.0 SDK**: IronXL stützt sich auf die IronXL .NET-Bibliothek, insbesondere .NET 6.0, als zugrunde liegende Technologie. Stellen Sie sicher, dass Sie das .NET 6.0 SDK auf Ihrem Rechner installiert haben. Sie können es von der offiziellen Website [**.NET-Website**](https://dotnet.microsoft.com/download/dotnet/6.0).
  2. Öffnen Sie die Eingabeaufforderung oder das Terminal: Gehen Sie genauso vor wie zuvor.

  3. IronXL über pip installieren: IronXL kann mit dem Paketmanager pip installiert werden. Führen Sie den folgenden Befehl aus:
 pip-Installation IronXL

Dieser Befehl sammelt, lädt und installiert die IronXL-Bibliothek und ihre Abhängigkeiten aus dem Python Package Index (PyPI).

Pandas Read Excel-Alternativen (Ohne Interop zu verwenden)    IronXL for Python: Abbildung 5 - Konsolenausgabe nach der Installation von IronXL

Lesen von Excel-Dateien mit Pandas und IronXL

Nachdem wir alles eingerichtet haben, werden wir mit dem Lesen von Excel-Dateien mit beiden Bibliotheken fortfahren. Die Demo-Excel-Datei, die wir lesen werden, enthält die folgenden Werte mit den Kopfzeilen Name, Marks und Res:

Pandas Read Excel-Alternativen (Ohne Interop zu verwenden)    IronXL for Python: Abbildung 6 - Excel-Musterblatt

Pandas verwenden

Schritt 1

Importieren Sie die Pandas-Bibliothek und verwenden Sie die Funktion read_excel() Funktion zum Lesen von Spaltendaten aus der Excel-Datei.

import pandas as pd
# Read the Excel file
df = pd.read_excel("file.xlsx")
PYTHON

Bei Verwendung von Pandas' read_excel() können Sie mehrere Optionen für die Anzeige nach Bedarf festlegen:

Kopfzeile: Gibt an, welche Zeile in der Excel-Datei als Spaltennamen verwendet werden soll. Sie können ihn auf None setzen, um anzugeben, dass es keine Kopfzeile gibt, oder Sie können eine ganze Zahl angeben, die die Zeilennummer angibt. Wenn sie übersprungen werden, werden die Kopfzeilen auf bool default true gesetzt, und die ersten Zeilenpositionen werden als Kopfzeilenbeschriftungen angezeigt.

index_col: Gibt an, welche Spalte(n) als Index des DataFrame zu verwenden ist/sind. Sie können einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Spaltenindizes übergeben, um einen MultiIndex zu erstellen.

Blatt_name: Gibt das Blatt an(s) um aus der Excel-Datei zu lesen. Sie können den Blattnamen als Zeichenkette oder eine ganze Zahl angeben, die die mit Null indizierten Blattpositionen angibt.

usecols: Gibt an, welche Spalten aus der Excel-Datei gelesen werden sollen. Sie können entweder einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Spaltenindizes übergeben, um bestimmte Spalten zu lesen.

dtype: Gibt die Datentypen für Spalten an. Sie können ein Wörterbuch übergeben, dessen Schlüssel Spaltennamen oder Spaltenindizes sind und dessen Werte die gewünschten Datentypen sind.

Konverter: Gibt Funktionen an, die auf Spalten für benutzerdefiniertes Parsing angewendet werden. Sie können ein Wörterbuch übergeben, in dem die Schlüssel Spaltennamen oder Spaltenindizes und die Werte Funktionen sind.

na_values: Gibt zusätzliche Zeichenfolgen an, die als NaN erkannt werden sollen (Keine Nummer) werte. Sie können eine Liste von Zeichenketten übergeben, die als NaN behandelt werden sollen.

parse_dates: Gibt an, welche Spalten als Datum analysiert werden sollen. Sie können entweder einen einzelnen Spaltennamen oder einen Spaltenindex übergeben. Oder Sie können eine Liste von Spaltennamen oder Indizes übergeben, die als Daten analysiert werden sollen.

date_parser: Gibt eine Funktion an, die für das Parsen von Datumsangaben verwendet wird. Sie können eine Funktion übergeben, die eine Zeichenkette annimmt und ein Datetime-Objekt zurückgibt.

Sprungzeilen: Gibt die Anzahl der Zeilen an, die am Anfang der Excel-Datei übersprungen werden sollen.

Diese Optionen bieten Flexibilität beim Lesen von Excel-Dateien mit Pandas, so dass Sie den Leseprozess an Ihre spezifischen Anforderungen anpassen können.

Schritt 2

Den Inhalt des DataFrame anzeigen.

print(df)
PYTHON

Hier ist die Ausgabe des obigen Codes:

Pandas Read Excel-Alternativen (Ohne Interop zu verwenden)    IronXL for Python: Abbildung 7 - Ausgabe der Ausführung des Pandas-Codes

IronXL verwenden

Schritt 1: Importieren Sie die IronXL-Bibliothek und verwenden Sie die Funktion WorkBook.Load() Methode zum Laden der Excel-Datei. Im Parameter der Load-Methode können Sie die gültigen Datei-URLs, das lokale Dateipfadobjekt oder den Dateinamen übergeben, wenn sich die Datei im selben Verzeichnis wie das Skript befindet.

from ironxl import WorkBook
# Load the Excel file like object
workbook = WorkBook.Load("file.xlsx")
PYTHON

Schritt 2: Mit IronXL können Sie mehrere Blätter anfordern und auch Spaltenetiketten drucken. Greifen Sie auf die Arbeitsblätter und Zellen zu, um die in den Spalten gespeicherten Daten zu lesen. Die Zellen können einen beliebigen Datentyp haben, z. B. numerische Spalten oder Zeichenkettenspalten. Die Zellwerte können durch Parsing von String-Spalten in numerische Werte umgewandelt werden, indem die Eigenschaft IntValue verwendet wird und umgekehrt.

# Access the first worksheet
# Loads the first sheet from list of int default worksheets
worksheet = workbook.DefaultWorkSheet
# Select a cell and return the converted value
cell_value = worksheet ["A2"].IntValue
print(cell_value)
# Read from the entire worksheet elegantly.
for cell in worksheet:
    print("Cell {} has value '{}'".format(cell.AddressString, cell.Text))
PYTHON

Hier ist die Ausgabe des obigen Codes mit einem geeigneten Anzeigeformat, das die Vielseitigkeit von IronXL zeigt:

Pandas Read Excel-Alternativen (Ohne Interop zu verwenden)    IronXL for Python: Abbildung 8 - Konsolenausgabe des IronXL-Codes

Weitere Informationen zur Arbeit mit Excel-Dateien finden Sie hier Codebeispiele seite.

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass sowohl Pandas als auch IronXL bieten effiziente Methoden zum Lesen von Excel-Dateien in Python. IronXL bietet jedoch mehrere Vorteile gegenüber Pandas, insbesondere in Bezug auf Benutzerfreundlichkeit, Leistung und spezielle Excel-Verarbeitungsfunktionen. Die intuitive API und die umfassenden Funktionen von IronXL machen es zu einer hervorragenden Wahl für Projekte, die umfangreiche Excel-Manipulationsaufgaben erfordern.

Darüber hinaus macht IronXL externe Abhängigkeiten wie Microsoft Excel oder Excel Interop überflüssig, was den Entwicklungsprozess vereinfacht und die Portabilität über verschiedene Plattformen hinweg verbessert. Für Python-Entwickler, die eine robuste und effiziente Lösung für Excel-Datei-Operationen suchen, ist IronXL daher die erste Wahl, da es im Vergleich zu Pandas bessere Möglichkeiten und erweiterte Funktionen bietet. Ausführlichere Informationen über IronXL finden Sie hier Dokumentation seite.

IronXL bietet eine kostenlos testen um seine Funktionalität und Machbarkeit für Ihre Python-Projekte zu testen. Diese Testversion ermöglicht es Entwicklern, den vollen Funktionsumfang von IronXL zu erkunden, ohne sich im Voraus finanziell zu verpflichten. Unabhängig davon, ob Sie IronXL für den Datenimport/-export, die Erstellung von Berichten oder die Datenanalyse in Betracht ziehen, bietet Ihnen die kostenlose Testversion die Möglichkeit, die Leistungsfähigkeit und Eignung für Ihre spezifischen Anforderungen zu beurteilen.

Weitere Informationen zu den Lizenzierungsoptionen und zum Herunterladen der kostenlosen Testversion finden Sie auf der IronXL-Website unter Lizenzierungsseite. Hier finden Sie detaillierte Informationen zu den Lizenzbedingungen, einschließlich Optionen für die kommerzielle Nutzung und den Support. Um mit IronXL zu beginnen und die Vorteile aus erster Hand zu erfahren, laden Sie die Bibliothek herunter unter *hier.

< PREVIOUS
Ein Vergleich zwischen OpenpyXL Python und IronXL Python

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

Kostenloser Pip-Download Lizenzen anzeigen >