Der Werkzeugkasten

Wir verwenden im Folgenden R und das Paket Tidyverse für die explorative Datenanalyse. Hier bekommt ihr einen Überblick über die verschiedenen Werkzeuge, die uns das Paket bietet.

Bei der Arbeit mit Daten ist es wichtig zu wissen, welches Werkzeug (hier: Paket oder Funktion) wir für welche Aufgabe verwenden. Genauso wie in einer Werkstatt, in der es eine Vielzahl an Werkzeugen gibt, die für unterschiedliche Zwecke geeignet sind.

Die Tabelle unten listet wichtige Werkzeuge auf, die wir im weiteren Verlauf dieses Skriptes kennenlernen werden.

Paket

Funktion

Aufgabe

dplyr

recode

Spaltenwerte neu kodieren.

dplyr

group_by

ggplot2

ggplot, aes, geom_line, geom_bar, geom_col geom_point u.v.m.

Visualisieren von Daten.

Das Paket tibble

Das Paket tibble führt das moderne Pendant zum klassischen Dataframe in R ein:

Das Paket readr

Das Paket readr beinhaltet Funktionen für das Laden von Daten aus strukturierten Datenformaten wie CSV-Dateien. Alle Funktionen zum Datenimport aus readr erzeugen automatisch einen tibble.

Das folgende Cheat Sheet beinhaltet eine Übersicht der Funktionen:

Cheat Sheet readr

Das Paket dplyr

Das Paket dplyr hat einen etwas merkwürdigen Namen. Er setzt sich aus dem Buchstaben „d“ und dem abgekürzten Wort „plyr“ zusammen. Das „d“ steht für Dataframe, während „plyr“ für den englischen Begriff „plier“ steht, was auf Deutsch „Zange“ bedeutet. Passend dazu bildet das offizielle Symbol des Pakets mehrere Zangen ab.

dplyr liefert uns eine Vielzahl wichtiger Funktionen für die Manipulation von Daten, die in Form eines Tibble vorliegen. Eine Übersicht der Funktionen findet ihr in dem bereitgestellten Cheat Sheet:

Cheat Sheet dplyr

Das Paket ggplot2

ggplot2 ist eines der umfassendsten Pakete für die professionelle Visualisierung von Daten mit R:

Das Cheat Sheet beinhaltet alle wichtigen Funktionen im Überblick:

Cheat Sheet ggplot2

Last updated

Was this helpful?