💻Transformation der REWE-Daten

Ihr könnt über den Link unten ein R-Skript mit den Lösungsvorschlägen herunterladen.

6KB

1 Laden und Sichten der Daten

Ladet euch für diesen Teil der Übungsaufgabe die folgende CSV-Datei auf euren Computer herunter und speichert sie in einem Ordner eurer Wahl.

6MB

rewe_products.csv

Open

Öffnet nun eine neue R-Skriptdatei und setzt das Arbeitsverzeichnis für eure Sitzung auf den Ordner, in dem die Datei liegt. Versucht, die folgenden Aufgaben mittels R zu lösen. Speichert alle Kommandos in eurem R-Skript und verwendet Kommentare, um den Code den Aufgaben zuordnen zu können.

1.1 Daten als Tibble einlesen

Schreibt den notwendigen Code, um die Datei als Dataframe, genauer gesagt, als Tibble, zu laden. Welches Paket könnt ihr dafür verwenden?

1.2 Anzahl Zeilen und Spalten ausgeben

Wie viele Spalten und Zeilen sind im Datensatz enthalten? Gebt die Spaltennamen auf der Konsole aus!

1.3 Daten sichten

Findet Lösungen für die folgenden Aufgaben zur Sichtung der Daten:

Lasst euch die ersten 20 Produktnamen ausgeben! Wie könnt ihr alle Produkte sehen?

Gebt die ersten 30 Marken aus. Was fällt euch auf? Wie könntet ihr das lösen?

# Die ersten 20 Marken im Datensatz
rewe %>% 
  select(brand) %>% 
  head(20)

# Ohne NAs
rewe %>% 
  select(brand) %>% 
  drop_na() %>% 
  head(20)

# Nur eindeutige Werte
rewe %>% 
  distinct(brand) %>% 
  drop_na()

Gebt die 5 Produkte mit dem höchsten Fettgehalt aus!

1.4 Spaltenzusammenfassungen

Verschafft euch einen Überblick über die Wertebereiche der Spalten und löst die folgenden Aufgaben:

Fasst die Spalten vegan und vegetarian zusammen. Was sagt ihr zu der Datenqualität der beiden Spalten?

Erstellt eine Zusammenfassung aller Spalten, die einen Wert in Gramm enthalten. Welche verschiedenen Möglichkeiten findet ihr, das zu erreichen?

2 Einfache Transformationen

2.1 Auswählen von Spalten

Erstellt einen neuen Dataframe, der den Produktnamen, die Produktkategorie und den Verkaufspreis enthält!

Erstellt einen neuen Dataframe mit allen Nährwertangaben sowie dem Produktnamen und der Produktkategorie!

Erstellt einen neuen Dataframe, der nur numerische Spalten enthält. Prüft die Spalten und schreibt auf, was euch auffällt.

df <- rewe %>% 
  select(where(is.numeric))

df %>% 
  head(10)

Es fällt auch, dass die Spalten gtin und productId als numerische Werte erkannt wurden, auch wenn es sich hierbei eher um IDs handelt. Wir müsen diese Spalten manuell in das korrekte Format konvertieren (s. auch Aufgabe 2.3a):

rewe <- rewe %>% 
  mutate(productId = as.character(productId),
         gtin = as.character(gtin))

2.2 Zeilen filtern

Filtert die Daten, sodass nur Produkte aus Deutschland enthalten sind. Behaltet nur den Produktnamen und das Herkunftsland im Ergebnis!

Findet alle veganen Bioprodukte!

Welche Biersorten werden im REWE-Onlineshop angeboten?

Findet alle Rotweine unter 2 EUR!

# Welche Produkttyp steht für "Rotwein"?
rewe %>% 
  distinct(productType) %>% 
  filter(str_detect(productType, "wein"))

rewe %>% 
  filter(productType == "Rotwein") %>% 
  filter(price < 2) %>% 
  select(productName, price) %>% 
  arrange(price)

Findet alle Produkte, die das Allergen Soja enthalten. Schaut euch dafür die Funktion str_detect() an!

rewe %>% 
  filter(str_detect(allergenStatement, "Soja")) %>% 
  select(productName, allergenStatement)

Um den verschiedenen Schreibweisen gerecht zu werden (groß/klein):

rewe %>% 
  filter(str_detect(str_to_lower(allergenStatement), "soja")) %>% 
  select(productName, allergenStatement)

2.3 Spalten verändern

Ändert den Datentyp der beiden Spalten productId und gtin in Zeichenketten (chr) um!

Erstellt eine neue Spalte sum_nutrition, in der ihr die Summe aller Nährwertangaben bildet (auch wenn es inhaltlich nicht viel Sinn ergibt). Belasst im Ergebnis nur die neue Summenspalte und die einzelnen Nährwertspalten!

Berechnet, ob ein Produkt mehr als 90 % Fett enthält und speichert diese Information auf einer neuen Spalte high_fat. Zeigt zur Überprüfung nur Zeilen an, bei denen der Wert TRUE ist. Die neue Spalte soll vor der Spalte productDescription eingefügt werden.

Erstellt eine Spalte foreign_bio, die TRUE enthalten soll, wenn das Produkt ein Bioprodukt ist und gleichzeitig nicht aus Deutschland stammt.

2.4 Daten zusammenfassen

Wie viele Produkte befinden sich im Datensatz?

Wie viele Produkte hat jede Produktkategorie?

Gebt zusätzlich zur Produktkategorie und der Anzahl der Produkte auch den durchschnittlichen Verkaufspreis mit an.

Listet alle Produktkategorien nach dem durchschnittlichen Fettgehalt ihrer Produkte auf. Auf welches Problem stoßt ihr dabei und wie könnt ihr das lösen?

Das Problem sind die NA Werte. Ist nur ein NA dabei ist das Ergebnis der Aggregation (hier: mean) ebenfalls NA. Die Lösung ist der Parameter na.rm, den wir auf TRUE setzen. Dadurch werden bei der Aggregation die NA-Werte entfernt und nur mit gültigen Werten gerechnet:

rewe %>% 
  group_by(productCategory) %>% 
  summarize(avg_fat = mean(fatInGram, na.rm = TRUE))

Verwendet das vorige Ergebnis und behaltet nur die Top 5 der Kategorien mit dem höchsten durchschnittlichen Fettgehalt ihrer Produkte.

Welche Marken haben die Produkte mit dem höchsten Proteingehalt im Sortiment? Listet die Top 10!

PreviousÜbungen NextÜbung zur Datenvisualisierung

Last updated 1 year ago

hashtag1 Laden und Sichten der Daten

hashtag1.1 Daten als Tibble einlesen

hashtag1.2 Anzahl Zeilen und Spalten ausgeben

hashtag1.3 Daten sichten

hashtag1.4 Spaltenzusammenfassungen

hashtag2 Einfache Transformationen

hashtag2.1 Auswählen von Spalten

hashtag2.2 Zeilen filtern

hashtag2.3 Spalten verändern

hashtag2.4 Daten zusammenfassen