Zum Fußzeileninhalt springen
MIT ANDEREN KOMPONENTEN VERGLEICHEN

Pandas Lesen von Excel-Alternativen (ohne Interop) | IronXL für Python

Excel-Dateien sind bei Datenanalyse- und -manipulationsaufgaben allgegenwärtig und bieten eine bequeme Möglichkeit, tabellarische Daten zu speichern und zu organisieren. In Python stehen mehrere Bibliotheken zum Lesen von Excel-Dateien zur Verfügung, jede mit ihren eigenen Funktionen und Möglichkeiten. Zwei prominente Optionen sind Pandas und IronXL, die beide effiziente Methoden zum Einlesen von Excel-Dateien in Python bieten.

In diesem Artikel vergleichen wir die Funktionalität und Leistung von Pandas und IronXL beim Lesen von Excel-Dateien in Python.

Pandas – Open-Source-Bibliothek

Pandas ist eine leistungsstarke Open-Source-Bibliothek für Datenanalyse und -manipulation in Python. Es führt die DataFrame-Datenstruktur ein, eine zweidimensionale, beschriftete Datenstruktur mit Spalten potenziell unterschiedlicher Datentypen. Pandas bietet vielfältige Funktionen zur Datenmanipulation, darunter das Lesen und Schreiben von Daten aus verschiedenen Quellen wie CSV-Dateien, SQL-Datenbanken und Excel-Dateien.

Zu den wichtigsten Funktionen von Pandas gehören:

DataFrame

Pandas führt die DataFrame-Datenstruktur ein, eine zweidimensionale, beschriftete Datenstruktur mit Spalten potenziell unterschiedlicher Datentypen. Sie ähnelt einer Tabellenkalkulation oder einer SQL-Tabelle und ermöglicht so einfache Operationen wie Filtern, Gruppieren und Aggregieren von tabellarischen Daten.

Datenmanipulation

Pandas bietet eine breite Palette von Funktionen zur Datenmanipulation, darunter Zusammenführen, Umformen, Aufteilen, Indizieren und Pivotieren von Daten. Diese Operationen ermöglichen es Benutzern, Daten effizient zu bereinigen, zu transformieren und für die Analyse oder Visualisierung vorzubereiten.

Zeitreihenfunktionalität

Pandas bietet umfassende Unterstützung für die Arbeit mit Zeitreihendaten, einschließlich Werkzeugen für Datums-/Zeitindizierung und Resampling sowie praktischen Methoden für den Umgang mit fehlenden Daten und die Zeitzonenkonvertierung.

Integration mit Bibliotheken

Pandas kann nahtlos mit verschiedenen Python-Bibliotheken zusammenarbeiten, die häufig in der Datenanalyse und bei wissenschaftlichen Berechnungen eingesetzt werden, darunter NumPy, Matplotlib und Scikit-learn. Diese Interoperabilität ermöglicht es den Anwendern, die Stärken verschiedener Bibliotheken innerhalb eines einzigen Analyse-Workflows zu nutzen.

Insgesamt ist Pandas ein leistungsstarkes Werkzeug zur Datenmanipulation und -analyse in Python und wird in verschiedenen Bereichen, darunter Finanzen, Wirtschaft, Biologie und Sozialwissenschaften, häufig eingesetzt.

IronXL – Die Python-Excel-Bibliothek

IronXL ist eine Python-Bibliothek, die speziell für die Arbeit mit Excel-Dateien entwickelt wurde. Es bietet eine intuitive API zum Lesen, Schreiben und Bearbeiten von Excel-Dokumenten in Python. IronXL hat sich zum Ziel gesetzt, die Arbeit mit Excel-Dateien zu vereinfachen, indem es eine unkomplizierte Benutzeroberfläche bietet und die Notwendigkeit externer Abhängigkeiten wie Microsoft Excel oder Excel Interop beseitigt.

Nachfolgend sind einige Hauptmerkmale von IronXL aufgeführt:

Intuitive Python 3+ Excel-Dokument-API

IronXL bietet eine intuitive und einfach zu bedienende Python 3+ Excel-Dokument-API, mit der Entwickler Excel-Tabellendateien nahtlos lesen, bearbeiten und erstellen können.

Plattformübergreifende Unterstützung

IronXL wurde für Python 3+ entwickelt und ist mit Windows, Mac, Linux und Cloud-Plattformen kompatibel, wodurch Flexibilität in den Einsatzumgebungen gewährleistet wird.

Keine Notwendigkeit für Microsoft Office oder Excel Interop

Entwickler können in Python mit Excel-Dateien arbeiten, ohne Microsoft Office installieren oder sich mit Excel Interop auseinandersetzen zu müssen. Dies vereinfacht den Integrationsprozess und minimiert Abhängigkeiten.

Kompatibilität

Unterstützt Python 3.7+ auf verschiedenen Betriebssystemen, darunter Microsoft Windows, macOS, Linux, Docker, Azure und AWS. Kompatibel mit beliebten IDEs wie JetBrains PyCharm und anderen Python IDEs.

Vielseitige Arbeitsmappen

Erstellen, laden, speichern und exportieren Sie Tabellenkalkulationen in verschiedenen Formaten, darunter XLS, XLSX, XSLT, XLSM, CSV, TSV, JSON, HTML, Binär und Byte-Array.

Leistungsstarke Arbeitsblattbearbeitung

Bearbeiten Sie Metadaten, legen Sie Berechtigungen und Passwörter fest, erstellen und entfernen Sie Arbeitsblätter, bearbeiten Sie das Blattlayout, verwalten Sie Bilder und vieles mehr.

Erweiterter Mobilfunkbereichsbetrieb

Führen Sie verschiedene Operationen an Zellbereichen durch, wie z. B. Sortieren, Trimmen, Löschen, Kopieren, Suchen und Ersetzen von Werten, Setzen von Hyperlinks sowie Zusammenführen und Aufheben der Zusammenführung von Zellen.

Flexible Zellgestaltung

Passen Sie Zellenstile wie Schriftart, Größe, Rahmen, Ausrichtung und Hintergrundmuster an und wenden Sie bedingte Formatierungen an.

Mathematische Funktionen und Datenformate

Nutzen Sie mathematische Funktionen wie Durchschnitt, Summe, Minimum und Maximum und legen Sie Zelldatenformate fest, darunter Text, Zahl, Formel, Datum, Währung, wissenschaftlich, Zeit, Boolesche Werte und benutzerdefinierte Formate.

Erstellen eines Python-Projekts mit PyCharm

Zunächst muss Python auf Ihrem Rechner installiert sein. Installieren Sie die neueste Version von Python 3.x von der offiziellen Python-Website . Achten Sie bei der Installation von Python darauf, die Option zum Hinzufügen von Python zum Systempfad auszuwählen, um den Zugriff über die Befehlszeile zu ermöglichen.

Um die Funktionalität von Pandas und IronXL beim Lesen von Excel-Dateien zu demonstrieren, erstellen wir ein Python-Projekt mit PyCharm, einer beliebten integrierten Entwicklungsumgebung (IDE) für Python.

  1. Öffnen Sie PyCharm und erstellen Sie ein neues Python-Projekt.

    ![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL für Python: Abbildung 1 – Erstellen eines neuen PyCharm-Projekts](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-1.webp)

  2. Konfigurieren Sie das Projekt wie folgt:

    • Geben Sie dem Projekt einen Namen. In diesem Fall " pythonReadExcel "
    • Wählen Sie den gewünschten Standort für das Projekt.
    • Wählen Sie den Interpretertyp: Projekt venv
    • Wählen Sie die Python-Version aus

    ![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL für Python: Abbildung 2 - Konfigurieren des Projektnamens, des Interpretertyps und der Python-Version](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-2.webp)

  3. Klicken Sie auf "Erstellen", um das Projekt zu erstellen.

Installieren Sie Pandas und IronXL mit pip

Pandas installieren

Um Pandas in Ihrem Projekt zu installieren, können Sie folgende Schritte befolgen:

  1. Öffnen Sie die Eingabeaufforderung oder das Terminal : In PyCharm über Ansicht->Werkzeugfenster->Terminal.

    ![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL für Python: Abbildung 3 - Öffnen des Terminals](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-3.webp)

  2. Pandas via pip installieren : Pandas kann mit dem Paketmanager pip installiert werden. Führen Sie folgenden Befehl im Terminal aus:

    pip install pandas
    pip install pandas
    SHELL

    Dieser Befehl installiert die Pandas-Bibliothek und ihre Abhängigkeiten vom Python Package Index (PyPI).

    ![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL für Python: Abbildung 4 - Konsolenausgabe nach Installation von Pandas](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-4.webp)

  3. Installieren Sie OpenPyXL über pip : OpenPyXL ist die Bibliothek, die beim Lesen und Schreiben von Excel-Dateien hilft. Es handelt sich um eine der Abhängigkeiten, die von Pandas verwendet werden. Bei der Installation von Pandas wird OpenPyXL automatisch installiert, falls es noch nicht vorhanden ist. Falls es aus irgendeinem Grund nicht installiert ist, können Sie es mit folgendem Befehl im Terminal installieren:

    pip install openpyxl
    pip install openpyxl
    SHELL

Installation von IronXL

Um IronXL in einem Python-Projekt zu installieren, befolgen Sie diese Schritte:

  1. Voraussetzungen sicherstellen : Bevor Sie IronXL installieren, vergewissern Sie sich, dass die erforderlichen Voraussetzungen auf Ihrem System erfüllt sind.

    .NET 6.0 SDK : IronXL verwendet die IronXL .NET-Bibliothek, insbesondere .NET 6.0, als zugrunde liegende Technologie. Stellen Sie sicher, dass das .NET 6.0 SDK auf Ihrem Rechner installiert ist. Sie können es von der offiziellen .NET-Website herunterladen.

  2. Öffnen Sie die Eingabeaufforderung oder das Terminal : Gehen Sie genauso vor wie zuvor.
  3. IronXL via pip installieren : IronXL kann mit dem Paketmanager pip installiert werden. Führen Sie den folgenden Befehl aus:

    
    :ProductInstall
    W```
    
    This command will collect, download, and install the IronXL library and its dependencies from the Python Package Index (PyPI).
    
    ![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL for Python: Figure 5 - Console output from installing IronXL](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-5.webp)
    
    :ProductInstall
    W```
    
    This command will collect, download, and install the IronXL library and its dependencies from the Python Package Index (PyPI).
    
    ![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL for Python: Figure 5 - Console output from installing IronXL](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-5.webp)
    SHELL

Reading Excel Files using Pandas and IronXL

As we have set up everything, we'll move on to reading Excel files using both libraries. The demo Excel file that we are going to read has the following values with header rows as Name, Marks, and Res:

![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL for Python: Figure 6 - Sample Excel sheet](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-6.webp)

Using Pandas

Step 1

Import the Pandas library and use the read_excel() function to read column data from the Excel file.

import pandas as pd

# Read the Excel file
df = pd.read_excel("file.xlsx")
import pandas as pd

# Read the Excel file
df = pd.read_excel("file.xlsx")
PYTHON

Bei Verwendung der Pandas-Funktion read_excel() können Sie je nach Bedarf verschiedene Anzeigeoptionen angeben:

  • Header : Gibt an, welche Zeile in der Excel-Datei als Spaltennamen verwendet werden soll. Sie können den Wert auf "None" setzen, um anzuzeigen, dass keine Kopfzeile vorhanden ist, oder Sie können eine ganze Zahl angeben, die die Zeilennummer angibt. Wird diese Option übersprungen, werden die Überschriften standardmäßig auf "Wahr" gesetzt, und die Positionen der ersten Zeile werden als Überschriftenzeilenbeschriftungen angezeigt.
  • index_col : Gibt an, welche Spalte oder Spalten als Index des DataFrames verwendet werden sollen. Sie können einen einzelnen Spaltennamen oder Spaltenindex angeben, oder Sie können eine Liste von Spaltennamen oder Spaltenindizes angeben, um einen MultiIndex zu erstellen.

  • sheet_name : Gibt das/die Tabellenblatt(e) an, das/die aus der Excel-Datei gelesen werden soll/n. Sie können den Tabellenblattnamen als Zeichenkette oder als ganze Zahl angeben, die die nullbasierte Position des Tabellenblatts angibt.
  • usecols : Gibt an, welche Spalten aus der Excel-Datei gelesen werden sollen. Sie können entweder einen einzelnen Spaltennamen oder einen Spaltenindex angeben oder eine Liste von Spaltennamen oder Spaltenindizes übergeben, um bestimmte Spalten zu lesen.
  • dtype : Gibt die Datentypen für Spalten an. Sie können ein Wörterbuch übergeben, in dem die Schlüssel Spaltennamen oder Spaltenindizes und die Werte die gewünschten Datentypen sind.
  • converters : Gibt Funktionen an, die auf Spalten für die benutzerdefinierte Analyse angewendet werden sollen. Sie können ein Wörterbuch übergeben, in dem die Schlüssel Spaltennamen oder Spaltenindizes und die Werte Funktionen sind.

  • na_values : Gibt zusätzliche Zeichenketten an, die als NaN-Werte (Not a Number) erkannt werden sollen. Sie können eine Liste von Zeichenketten übergeben, die als NaN behandelt werden sollen.
  • parse_dates : Gibt an, welche Spalten als Datumsangaben interpretiert werden sollen. Sie können entweder einen einzelnen Spaltennamen oder einen Spaltenindex angeben, oder Sie können eine Liste von Spaltennamen oder Indizes angeben, die als Datumsangaben interpretiert werden sollen.
  • date_parser : Gibt eine Funktion an, die zum Parsen von Datumsangaben verwendet werden soll. Sie können eine Funktion übergeben, die eine Zeichenkette akzeptiert und ein Datetime-Objekt zurückgibt.
  • skiprows : Gibt die Anzahl der Zeilen an, die am Anfang der Excel-Datei übersprungen werden sollen.

Diese Optionen bieten Flexibilität beim Lesen von Excel-Dateien mit Pandas und ermöglichen es Ihnen, den Lesevorgang an Ihre spezifischen Anforderungen anzupassen.

Schritt 2

Den Inhalt des DataFrames anzeigen.

print(df)
print(df)
PYTHON

Hier ist die Ausgabe des obigen Codes:

![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL für Python: Abbildung 7 - Ausgabe der Ausführung des Pandas-Codes](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-7.webp)

Verwendung von IronXL

Schritt 1: Importieren Sie die IronXL-Bibliothek und verwenden Sie die Methode `WorkBook.Load() , um die Excel-Datei zu laden. Im Parameter derLoad`-Methode können Sie die gültige Datei-URL, den lokalen Dateipfad oder den Dateinamen angeben, falls sich die Datei im selben Verzeichnis wie das Skript befindet.

from ironxl import WorkBook

# Load the Excel file as a WorkBook object
workbook = WorkBook.Load("file.xlsx")
from ironxl import WorkBook

# Load the Excel file as a WorkBook object
workbook = WorkBook.Load("file.xlsx")
PYTHON

Schritt 2: Mit IronXL können Sie auf mehrere Blätter zugreifen und Spaltenetiketten drucken. Greifen Sie auf die Arbeitsblätter und Zellen zu, um die spaltenweise gespeicherten Daten zu lesen. Die Zellen können beliebige Datentypen aufweisen, z. B. numerische Spalten oder Zeichenkettenspalten. Die Zellenwerte können in Ganzzahlen umgewandelt werden, indem Zeichenkettenspalten mithilfe der IntValue-Eigenschaft in numerische Werte umgewandelt werden und umgekehrt.

# Access the first worksheet
worksheet = workbook.DefaultWorkSheet

# Select a specific cell and return the converted value
cell_value = worksheet["A2"].IntValue
print(cell_value)

# Read from the entire worksheet and print each cell's address and value
for cell in worksheet:
    print(f"Cell {cell.AddressString} has value '{cell.Text}'")
# Access the first worksheet
worksheet = workbook.DefaultWorkSheet

# Select a specific cell and return the converted value
cell_value = worksheet["A2"].IntValue
print(cell_value)

# Read from the entire worksheet and print each cell's address and value
for cell in worksheet:
    print(f"Cell {cell.AddressString} has value '{cell.Text}'")
PYTHON

Hier ist die Ausgabe des obigen Codes in einem geeigneten Anzeigeformat, die die Vielseitigkeit von IronXL demonstriert:

![Pandas liest Excel-Alternativen (ohne Interop zu verwenden)] | IronXL für Python: Abbildung 8 - Konsolenausgabe des IronXL-Codes](/static-assets/excel/blog/pandas-read-excel/pandas-read-excel-8.webp)

Weitere Informationen zur Arbeit mit Excel-Dateien finden Sie auf dieser Seite mit Codebeispielen .

Abschluss

Zusammenfassend lässt sich sagen, dass sowohl Pandas als auch IronXL effiziente Methoden zum Einlesen von Excel-Dateien in Python bieten. IronXL bietet jedoch gegenüber Pandas einige Vorteile, insbesondere hinsichtlich Benutzerfreundlichkeit, Leistung und spezieller Excel-Verarbeitungsfunktionen. Die intuitive API und die umfassenden Funktionen von IronXL machen es zur idealen Wahl für Projekte, die umfangreiche Excel-Bearbeitungsaufgaben erfordern.

Darüber hinaus entfällt durch IronXL die Notwendigkeit externer Abhängigkeiten wie Microsoft Excel oder Excel Interop, was den Entwicklungsprozess vereinfacht und die Portabilität über verschiedene Plattformen hinweg verbessert. Für Python-Entwickler, die eine robuste und effiziente Lösung für Excel-Dateioperationen suchen, erweist sich IronXL daher als die bevorzugte Wahl, da es im Vergleich zu Pandas bessere Möglichkeiten und erweiterte Funktionalitäten bietet. Für detailliertere Informationen zu IronXL besuchen Sie bitte diese Dokumentationsseite .

IronXL bietet eine kostenlose Testversion an, um die Funktionalität und Eignung für Ihre Python-Projekte zu prüfen. Diese Testversion ermöglicht es Entwicklern, den gesamten Funktionsumfang und die Möglichkeiten von IronXL ohne vorherige finanzielle Verpflichtung zu erkunden. Egal ob Sie IronXL für Datenimport-/Exportaufgaben, die Berichtserstellung oder die Datenanalyse in Betracht ziehen, die kostenlose Testversion bietet Ihnen die Möglichkeit, die Leistungsfähigkeit und Eignung für Ihre spezifischen Anforderungen zu beurteilen.

Weitere Informationen zu den Lizenzoptionen und zum Herunterladen der kostenlosen Testversion finden Sie auf der Lizenzseite der IronXL-Website. Hier finden Sie detaillierte Informationen zu den Lizenzbedingungen, einschließlich Optionen für die kommerzielle Nutzung und Support. Um mit IronXL loszulegen und seine Vorteile selbst zu erleben, laden Sie die Bibliothek von hier herunter.

Hinweis:Pandas ist eine eingetragene Marke des jeweiligen Inhabers. Diese Website steht in keiner Verbindung zu Pandas, wird nicht von Pandas unterstützt oder gesponsert. Alle Produktnamen, Logos und Marken sind Eigentum ihrer jeweiligen Eigentümer. Die Vergleiche dienen nur zu Informationszwecken und spiegeln öffentlich verfügbare Informationen zum Zeitpunkt des Schreibens wider.

Häufig gestellte Fragen

Wie kann ich Excel-Dateien in Python lesen, ohne Interop zu verwenden?

Sie können IronXL verwenden, eine Python-Bibliothek, die für die Arbeit mit Excel-Dateien ausgelegt ist und keine Microsoft Office- oder Excel-Interop benötigt. Sie bietet eine intuitive API für nahtlose Excel-Dateibearbeitung.

Was macht IronXL zu einer besseren Wahl für Excel-spezifische Aufgaben im Vergleich zu Pandas?

IronXL bietet eine spezialisierte API, die Excel-Dateioperationen ohne externe Abhängigkeiten vereinfacht. Es unterstützt verschiedene Excel-Formate, fortgeschrittene Arbeitsblattbearbeitung und Zelloperationen und ist somit überlegen für spezifische Excel-Aufgaben.

Kann ich Excel-Dateien auf verschiedenen Betriebssystemen mit IronXL bearbeiten?

Ja, IronXL ist kompatibel mit Python 3.7+ und unterstützt Plattformen einschließlich Windows, macOS, Linux, Docker, Azure und AWS, was eine plattformübergreifende Funktionalität für die Bearbeitung von Excel-Dateien bietet.

Wie installiere ich IronXL für ein Python-Projekt?

Zuerst stellen Sie sicher, dass Sie das .NET 6.0 SDK installiert haben. Verwenden Sie dann pip, um IronXL zu installieren, indem Sie den Befehl: pip install ironxl im Terminal ausführen.

Welche Excel-Dateiformate kann IronXL verarbeiten?

IronXL unterstützt ein breites Spektrum an Excel-Dateiformaten, einschließlich XLS, XLSX, XSLT, XLSM, CSV, TSV, JSON, HTML, Binary und Byte Array.

Gibt es eine kostenlose Testversion von IronXL?

Ja, IronXL bietet eine kostenlose Testversion für Entwickler, um seine Funktionalität zu testen. Weitere Informationen über die Testversion und Lizenzoptionen finden Sie auf der IronXL-Website.

Wie verbessert IronXL die Leistung beim Lesen von Excel-Dateien in Python?

IronXL bietet eine optimierte API für das effiziente Lesen und Bearbeiten von Excel-Dateien und bietet eine bessere Leistung für Excel-spezifische Aufgaben im Vergleich zu allgemeinen Datenanalyse-Bibliotheken wie Pandas.

Wie lese ich Excel-Dateien mit IronXL in Python?

Sie können Excel-Dateien in Python mit den einfachen Methoden von IronXL lesen. Verwenden Sie einfach die Funktionen der Bibliothek, um Excel-Daten nach Bedarf zu laden und zu bearbeiten.

Warum sollte man sich für IronXL entscheiden für Python-Projekte, die umfangreiche Excel-Bearbeitung beinhalten?

IronXL wird empfohlen für seine Benutzerfreundlichkeit, Leistung und umfassenden Funktionen wie flexible Zellformatierung und mathematische Funktionen, was es ideal für Projekte macht, die eine umfangreiche Excel-Bearbeitung erfordern.

Welche Alternativen zu Pandas gibt es für das Lesen von Excel-Dateien in Python?

IronXL ist eine starke Alternative zu Pandas für das Lesen von Excel-Dateien in Python und bietet spezifische Funktionen für die Excel-Bearbeitung, ohne dass Microsoft Office oder externe Abhängigkeiten erforderlich sind.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen