💻Übung zur Datenvisualisierung
In dieser Übung erstellt ihr unterschiedliche Visualisierungen mit R und ggplot2.
1 Trends und Entwicklungen
Für diesen Teil der Übungsaufgabe verwenden wir den Covid19-Datensatz. Ladet euch den aktuellen Tagesstand des Datensatzes in einen Tibble und versucht, geeignete Visualisierungen für die folgenden Fragen zu erstellen.
1.1 Verlauf der neuen Impfungen in Deutschland
☑️ Visualisiert den Verlauf der neuen Impfungen in Deutschland seit dem 01.01.2021
covid %>%
filter(location == "Germany") %>%
filter(date >= "2021-01-01") %>%
ggplot() +
aes(x = date, y = new_vaccinations_smoothed) +
geom_line()1.2 Wöchentliche Neuinfektionen seit Pandemiebeginn
☑️ Erstellt eine Visualisierung, die die Summe der wöchentlichen Neuinfektionen für Deutschland seit Beginn der Pandemie darstellt.
Eine mögliche Lösung für die Aufgabe:
covid %>%
filter(location == "Germany", date >= "2021-01-01") %>%
transmute(week = floor_date(date, "week"), new_cases) %>%
group_by(week) %>%
summarise(sum_new_cases = sum(new_cases, rm.na = TRUE )) %>%
ggplot() +
aes(x = week, y = sum_new_cases) +
geom_bar(stat = "identity")Als erstes filtern wir die Daten auf das Land Deutschland sowie das Datum (Zeile 2). Anschließend erstellen wir eine neue berechnete Spalte, die das Startdatum der jeweiligen Woche beinhaltet (Zeile 3). Anhand der neuen Spalte week werden die Daten gruppiert und die Summe der neuen Infektionen für jede Woche berechnet. Anschließend verwenden wir die neuen Spalten für die x- und y-Achse eines Balkendiagramms. Hier ist es wichtig, dass wir die Statistik des Balkendiagramms auf den Wert identity setzen, weil ein Balkendiagramm standardmäßig die Daten aufsummiert. Da die Spalte sum_new_cases aber bereits aggregiert ist, müssen wir dieses Verhalten unterbinden.
2 Proportionen
Für diesen Teil der Übungsaufgabe benötigen wir den Orangenlimonaden-Datensatz. Ladet euch die Daten auf euren Computer herunter und importiert ihn als Tibble.
2.1 Häufigkeit pro Studiengang
☑️ Erstellt eine Visualisierung, um schnell die Proportionen bei der Nennung von Studiengängen vergleichen zu können.
Um die Visualisierung schneller interpretieren zu können, rekodieren wie die numerischen Werte mit der recode() Funktion. Anschließend sortieren wir die Ausprägungen nach der Häufigkeit mit der fct_infreq() Funktion. Mit der veränderten Spalte f44_studiengang können wir dann ein Balkendiagramm in absteigender Sortierung erstellen.
limo %>%
transmute(f44_studiengang = fct_infreq(recode(f44_studiengang, `1` = "BAH", `2` = "BLW", `3` = "BLP", `4` = "OEC", `5` = "MAL", `-999` = "NA"))) %>%
ggplot() +
aes(x = f44_studiengang) +
geom_bar()2.2 Limo gekauft, getrunken oder weder noch?
☑️ Visualisiert die absoluten Häufigkeiten der Nennungen zur Frage 1.
limo %>% transmute(f1 = case_when(
f1_gekauft == 1 ~ "gekauft",
f1_getrunken == 1 ~ "getrunken",
f1_weder_noch == 1 ~ "weder noch",
TRUE ~ "keine Angabe" )) %>%
ggplot() +
aes(x = f1) +
geom_bar() +
labs(x = "Antwort", y = "Häufigkeit")
3 Verteilungen
Für den dritten Teil dieser Übungsaufgabe verwenden wir den REWE-Datensatz.
3.1 Proteingehalt über alle Produkte
☑️ Erstellt eine geeignete Visualisierung für die Verteilung des Proteingehalts aller Produkte.
Probiert selbst...
3.2 Fettgehalt in drei Lebensmittelkategorien
☑️ Erstellt eine geeignete Visualisierung für die Verteilung des Fettgehalts der Produkte in den Produktkategorien "Tiefkühl", "Frische und Kühlung" sowie "Süßes und Salziges". In der Visualisierung sollen die Verteilungen für dir drei Kategorien getrennt betrachtet werden können.
Probiert selbst...
4 Assoziationen
Im letzten Teil der Übungsaufgabe greifen wir erneut auf den Covid19-Datensatz zurück.
4.1 Zusammenhang GDP und Lebenserwartung
☑️ Überprüft visuell, ob es einen Zusammenhang zwischen dem GDP und der Lebenserwartung eines Landes gibt.
Probiert selbst mal...
Last updated
Was this helpful?