Einfaches Erkunden und Visualisieren von Daten mit Python und der Seaborn-Bibliothek

Das Erkunden und Visualisieren von Daten ist ein wesentlicher Schritt bei der Datenanalyse, da es hilft, verborgene Muster und Beziehungen innerhalb der Daten zu verstehen. Mit der Programmiersprache Python und der Seaborn-Bibliothek können Sie schnell und einfach professionelle Visualisierungen erstellen. In diesem Artikel zeigen wir Ihnen Schritt für Schritt, wie Sie mit Seaborn Daten untersuchen und interaktive Diagramme erstellen können. Anhand praktischer Beispiele können Sie diese Tools in Ihren eigenen Projekten anwenden.

python-seaborn-logo-chart Einfaches Erkunden und Visualisieren von Daten mit Python und der Seaborn-Bibliothek

Zusammenfassung

  • Seaborn ist eine benutzerfreundliche Bibliothek zur Datenvisualisierung in Python.
  • Die Installation ist mit PIP oder Mamba ganz einfach und das Importieren von Datensätzen ist sehr einfach.
  • Seaborn kann schnell Histogramme, Streudiagramme und lineare Regressionen zur Datenanalyse erstellen.

Sie haben vielleicht gehört, dass Python sich hervorragend für die Datenanalyse eignet. Suchen Sie nach einer Möglichkeit zur Datenvisualisierung, die einfach zu verwenden ist und ansprechende Diagramme erstellt? Seaborn könnte das sein, wonach Sie suchen.

Siehe auch
1 von 2

Warum Seaborn wählen?

Ich habe gewählt Seegeboren, eine Datenvisualisierungsbibliothek in Python, die von Michael Waskom erstellt wurde, weil sie einfach zu verwenden schien.

Lesen Sie auch:  So bringen Sie jemanden zu Nachrichtenanfragen auf Facebook und Instagram zurück

Ich wollte die Datenanalyse und Statistik in Python erkunden, da es eine beliebte Sprache für Datenwissenschaft und Analytik ist und ich damit vertraut war. Ich habe an der Uni einen Grundkurs in Statistik und Wahrscheinlichkeitsrechnung belegt, aber nach über 20 Jahren gab es wohl ein paar Dinge, bei denen ich zögerte.

Manuelle Berechnungen waren noch nie mein Ding, aber es gibt jede Menge Open-Source-Software für Statistik und Mathematik, mit der ich Konzepte erkunden kann, ohne mich in Gleichungen und Berechnungen zu verlieren.

Matplotlib wird häufig zum Erstellen von Datenvisualisierungen mit Python verwendet, ist jedoch möglicherweise schwierig zu erlernen. Seaborn kann einige gut aussehende Diagramme erstellen und verfügt über eine einfache Syntax. Außerdem bin ich mit Schaum's Outlines zur Statistik ausgestattet.

Installieren Sie Seaborn
Wenn Sie Python bereits verwenden, können Sie Seaborn am besten über PIP installieren:

pip install seaborn

Ich habe eine Umgebung Mamba Es heißt „stats“ und enthält andere beliebte Bibliotheken wie NumPy, SciPy und Pandas.

Ich aktiviere es mit diesem Befehl in der Shell

mamba activate stats

Ich kann Python-Befehle in IPython oder Jupyter ausführen.

Suchen und Importieren von Datensätzen

Um Seaborn zu starten, importieren Sie es mit dem Standard-Importbefehl in Python.

import seaborn as sns

Aufgrund der Kürze in der Schreibweise wird üblicherweise „sns“ als Abkürzung für „seaborn“ verwendet.

Sie können Daten aus Tabellenkalkulationen wie Excel importieren, aber auch „durch Kommas getrennte Werte“ oder CSV-Dateien sind üblich, insbesondere für Datensätze, die Sie online finden. Sie können diese Dateien mithilfe der Pandas-Bibliothek einlesen. So laden Sie eine CSV-Datei in das aktuelle Verzeichnis hoch:

import pandas as pd
data = pd.read_csv("example.csv")

Seaborn hat auch mehrere bereits integrierte Datensätze. Wenn Sie diese Sets verwenden, nutzen Sie die Methode get_dataset_names, um sie anzuzeigen:

sns.get_dataset_names()

seaborn-dataset-names Einfaches Erkunden und Visualisieren von Daten mit Python und der Seaborn-Bibliothek

Es gibt einige interessante Elemente, die einen Blick wert sind, aber wir werden einen Datensatz mit Restaurant-Trinkgeldern verwenden.

Lesen Sie auch:  So senden Sie hochwertige Fotos und Videos per Telegram auf Mobilgeräten und Desktops

Wir laden die Daten in einen Pandas-Datenrahmen:


tips = sns.load_dataset("tips")

Datenrahmen sind ähnlich wie Tabellenkalkulationen in Spalten organisiert. Mit der Head-Methode verschaffen wir uns einen Überblick über die Daten:

tips.head()

tips-head-jupyter Einfaches Erkunden und Visualisieren von Daten mit Python und der Seaborn-Bibliothek

Zeichnen von Histogrammen mit Seaborn

Ein Histogramm ist ein nützliches Basisdiagramm, das zeigt, wie die Werte eines Datensatzes verteilt sind. Werfen wir einen Blick auf das Histogramm, das den Gesamtbetrag dieser Restaurantrechnungen zeigt, die Spalte „total_bill“, und verwenden dazu die Displot-Methode:


sns.displot(x="total_bill",data=tips)

Tipps-Histogramm Einfaches Erkunden und Visualisieren von Daten mit Python und der Seaborn-Bibliothek

Sie können erkennen, dass es fast wie eine glockenförmige Normalverteilungskurve aussieht, wobei das Ende nach rechts geneigt ist und die Spitze eher nach links zeigt. Das Feld „data=“ ist eine praktische Funktion beim Arbeiten mit Datenrahmen, ohne jedes Mal „tips[„column“]“ eingeben zu müssen. Der Name des Datenrahmens ist die Datenquelle.

Erstellen von Streudiagrammen

Eine nützliche Visualisierungsmöglichkeit in einem Datensatz besteht darin, zu erkennen, ob die Spalten miteinander in Beziehung stehen. Eine gute Möglichkeit hierfür besteht darin, ein Streudiagramm zu zeichnen, das die Werte einer Spalte gegen eine andere aufstellt. Stellen wir die Gesamtrechnung dem Trinkgeld gegenüber:

sns.relplot(x="total_bill",y="tip",data=tips)

bill-vs-tips-scatter-plot Einfaches Erkunden und Visualisieren von Daten mit Python und der Seaborn-Bibliothek

Die x-Achse stellt wiederum die Gesamtrechnung dar und die y-Achse den Trinkgeldbetrag.

Lineares Regressionsdiagramm

Wenn Sie sich das Streudiagramm genau angesehen haben, ist Ihnen möglicherweise aufgefallen, dass Sie eine gerade Linie durch die Werte hätten ziehen können. Dies bedeutet, dass eine positive lineare Beziehung zu bestehen scheint: Die Höhe des Trinkgelds steigt mit der Gesamtsumme der Rechnung.

Lesen Sie auch:  Windows 11 Phone Link macht sich endlich auf den Weg zum iPhone

Mit der Regplot-Methode können wir eine Regressionslinie durch dieses Streudiagramm zeichnen:


sns.regplot(x="total_bill",y="tip",data=tips)

bill-vs-tips-linear-regression Einfaches Erkunden und Visualisieren von Daten mit Python und der Seaborn-Bibliothek

Sie sehen ein Diagramm ähnlich dem zuvor gezeichneten, darüber ist jedoch eine Linie eingezeichnet, unser Modell einer linearen Beziehung. Dies wird als „gewöhnliche Kleinstquadrate-Regression“ bezeichnet.

Oberhalb und unterhalb der Linie gibt es außerdem einen schattierten Bereich. Dies stellt ein Konfidenzintervall dar, da bei der linearen Regression immer eine gewisse Unsicherheit hinsichtlich ihrer Anpassung an die Datenpunkte besteht.

Sie können jedoch mehr als nur gerade Linien anpassen und auf diese Weise Kurven modellieren. Dies geht jedoch über den Rahmen dieses Artikels hinaus. Dieses Tutorial kratzt nur an der Oberfläche der Visualisierung und Erkundung von Daten mit Python und Seaborn.

Die Verwendung von Python und Seaborn zum Erkunden und Visualisieren von Daten öffnet enorme Möglichkeiten für ein besseres Verständnis komplexer Datensätze. Indem Sie die genannten Schritte und Beispiele befolgen, können Sie ganz einfach interaktive und professionelle Diagramme erstellen. Denken Sie daran, dass eine gute Datenvisualisierung nicht nur eine Möglichkeit zur Anzeige von Informationen ist, sondern ein leistungsstarkes Tool zum Treffen fundierter Entscheidungen. Experimentieren Sie weiter mit verschiedenen Diagrammtypen, um das Beste aus Ihren Daten herauszuholen.

Sie können auch mögen