Der Analyseprozess
Explorative Datenanalyse mit R
Dieser Abschnitt führt euch in die Grundlagen der explorativen Datenanalyse mit R ein. In der explorativen Datenanalyse versuchen wir einen unbekannten Datensatz mit geeigneten Verfahren kennenzulernen und schnell Muster in den Daten zu erkennen. Auf Basis dieser Muster formulieren wir Hypothesen. Diese Hypothesen können anschließend mit statistischen Modellen aus dem Bereich der schließenden Statistik auf ihre Gültigkeit überprüft werden. Dieser Schritt ist jedoch nicht Teil der explorativen Datenanalyse.
Eine ausgezeichnete Einführung in die explorative Datenanalyse mit R gibt auch das Buch R for Data Science von Hadley Wickham und Garrett Grolemund. Das Buch ist als Online-Buch frei zugänglich.

Wickham und Grolemund definieren den Datenanalyseprozess durch eine Abfolge bestimmter Schritte, wie in der Abbildung gezeigt. In diesem Abschnitt stehen die rot markierten Schritte im Fokus.
Die Arbeitsumgebung
Im ersten Schritt lernen wir die Arbeitsumgebung kennen. Diese besteht aus der R-Software und dem RStudio als Entwicklungsumgebung, die wir im ersten Schritt installieren und die wichtigsten Funktionen kennenlernen.
Daten laden
Jeder Analyseprozess beginnt mit dem Laden eines Datensatzes. Dabei gibt es verschiedene Datenquellen, die in Betracht gezogen werden müssen. Ein häufig verwendetes Format sind Komma-separierte Werte (comma separated values = CSV) in einfachen Textdateien. Dieses Format steht auch hier im Vordergrund.
Gemäß der Abbildung aus Wickham und Grolemund 2016 folgt auf das Laden der Daten der Arbeitsschritt „Tidy“. Dieser ist dann notwendig, wenn die Daten nicht in der typischen Form bestehend aus Spalten und Zeilen vorliegen. Leider ist das in der Praxis oft der Fall. In diesem Kurs wird aber zunächst davon ausgegangen, dass die Daten das entsprechende Format aufweisen. Die interessierte Leserin verweise ich auf das Kapitel 12 im Buch „R for Data Science“.
Daten transformieren
Das Ziel der explorativen Datenanalyse ist die Visualisierung der Daten mit geeigneten Diagrammen, um interessante Muster sichtbar werden zu lassen. Visualisierungen benötigen häufig nur einen Teil der Daten (wenige Spalten oder bestimmte Zeilen). Auch müssen wir oft neue Spalten berechnen oder bestehende Daten aggregieren, bevor wir sie visualisieren können. Alle diese Aufgaben können wir unter dem Bereich der Datentransformation zusammenfassen.
Für diese Aufgaben bietet R mit dem Paket dplyr
mächtige Funktionen. Insbesondere lernen wir in dem Abschnitt:
Wie wir bestimmte Spalten auswählen können (
select
).Wie wir Zeilen fast beliebig filtern können (
filter
).Wie wir neue, berechnete Spalten hinzufügen können (
mutate
).Wie wir Zeilen sortieren können (
arrange
).Wie wir Zeilen zusammenfassen und gruppieren können (
summarize
undgroup_by
)
Daten visualisieren
Das wichtigste Werkzeug in der explorativen Datenanalyse ist die Visualisierung von Daten. In R steht uns dafür mit ggplot2
ein leistungsfähiges Instrument zur Verfügung. Wir lernen für bestimmte Anwendungsfälle die richtigen Visualisierungen zu identifizieren und mit ggplot2
umzusetzen.
Literatur
Bücher
Wickham, Hadley, and Garrett Grolemund. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. First edition, O’Reilly, 2016. Online verfügbar: https://r4ds.had.co.nz/
Wickham, Hadley. ggplot2. Springer Science+Business Media, LLC, 2016. Online verfügbar: https://ggplot2-book.org/
Kabacoff, Robert. R in Action: Data Analysis and Graphics with R. Second edition, Manning, 2015.
Sauer, Sebastian. Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren. Springer Gabler, 2019. Online verfügbar: https://link.springer.com/book/10.1007/978-3-658-21587-3
Online-Dokumentationen
Die offizielle Dokumentation der Tidyverse-Bibliotheken:
Ein Tutorial für die Einführung in R mit RStudio:
Ein Tutorial zu den Grundlagen der Datenmanipulation mit R, tidyr
und dplyr
:
Zwei weiterführende Anleitungen zur Datenmanipulation mit dplyr
:
Last updated
Was this helpful?