Overview of ggplot2
Datenvisualisierungen mit ggplot2 basieren auf der umfassenden Grammar of Graphics. Visualisierungen werden hier immer nach dem gleichen Muster aufgebaut.
Last updated
Was this helpful?
Datenvisualisierungen mit ggplot2 basieren auf der umfassenden Grammar of Graphics. Visualisierungen werden hier immer nach dem gleichen Muster aufgebaut.
Last updated
Was this helpful?
Dem Visualisierungspaket ggplot2
liegt eine fundierte Theorie über das Erstellen von Grafiken zugrunde: die Grammar of Graphics. Wir führen kurz die wichtigsten Aspekte dieser Theorie ein. Für mehr Informationen findet ihr im eine gute Zusammenfassung.
Ferner empfehle ich die fantastische Einführung von Bradley Boehmke von der University of Cincinnati in ggplot2
. Er ist auch der Autor des Buches .
Gemäß der Grammar of Graphics sind die Grundelemente jeder Visualisierung die Daten, eine Zuordnung von Variablen in den Daten zu ästhetischen Elementen der Visualisierung sowie mindestens eine geometrische Figur, die für die Darstellung verwendet wird. Die Daten sind in R ein Dataframe bestehend aus Spalten und Zeilen. Die Zuordnung von Spalten zu ästhetischen Elementen, auch Mapping genannt, meint solche Aspekte wie welche Variablen auch der x- und y-Achse abgetragen werden sollen oder welche Variablen die Farben oder Größen der geometrischen Figuren bestimmen sollen. Geometrische Figuren stellen als dritter Bestandteil jeder Visualisierung die sichtbaren Elemente der Visualisierung dar. Typische Figuren sind Balken, Kreise oder Linien.
Der folgende Pseudo-Code beschreibt den typischen minimalen Aufbau einer Visualisierung in ggpot2
:
Die drei Begriffe <DATAFRAME>
, <MAPPING>
und <SHAPE>
sind Platzhalter für die oben beschriebenen Elemente und werden in einer konkreten Visualisierung durch entsprechende gültige Angaben ersetzt.
Für die verschiedenen Elemente der Visualisierung können wir auf alle Felder des Dataframes zugreifen. Das ist insbesondere für das Ästhetik-Mapping relevant. Dort werden Felder (oder Variablen) aus dem Dataframe den beiden Achsen der Visualisierung zugeordnet. Auch Farben oder die Größe der geometrischen Figuren können über Felder in den Daten gesteuert werden.
Das Feld mapping
ist zentral für jede Visualisierung und wird der ggplot
Funktion mitgegeben. Das Ästhetik-Mapping definieren wir mit der aes()
Funktion, die in Abhängigkeit der verwendeten Visualisierungsform unterschiedliche Parameter verarbeiten kann.
Fast jede Visualisierung benötigt die Information, welche Daten auf der x- und y-Achse dargestellt werden sollen. Deshalb können diese beiden Parameter als Erstes unbenannt übergeben werden:
Der obige Code ist äquivalent zu diesem:
Farben können in Visualisierungen für unterschiedliche Funktionen verwendet werden. So können zum Beispiel in einem Liniendiagramm verschiedene Serien in unterschiedlicher Farbe dargestellt werden. In diesem Fall handelt es sich um eine diskrete Farbpalette.
Farben können auch für kontinuierliche Größen verwendet werden. So könnte in einem Balkendiagramm jeder Balken in Abhängigkeit eines Feldes entsprechend auf einer kontinuierlichen Skala von Grün bis Rot eingefärbt werden.
Ein anschauliches Beispiel für die Steuerung der Größe einer geometrischen Figur ist das Punktediagramm. Hier kann die Größe jedes individuellen Punkts über eine Variable aus dem Dataframe gesteuert werden.
In der Visualisierung unten werden sowohl die Farbe als auch die Größe der Kreise über Felder in den Daten gesteuert. Die Größe ist proportional zur durchschnittlichen Lebenserwartung eines Landes. Die Farbe kodiert den Kontinent, zu dem ein Land gehört.
Auch die Symbole, die in einer Visualisierung verwendet werden, können über ein Feld in den Daten bestimmt werden.
In der Abbildung unten wird der Kontinent, zu dem ein Land gehört, für die Auswahl des Symbols verwendet:
Kommt bald.
Als ersten Wert erwartet die ggplot
Funktion einen Dataframe. Dieser enthält die Daten für die Visualisierung. Alternativ können wir auch hier den %>%
verwenden, und damit den Parameter weglassen: