# Der Analyseprozess ## Explorative Datenanalyse mit R Dieser Abschnitt führt euch in die Grundlagen der explorativen Datenanalyse mit R ein. In der explorativen Datenanalyse versuchen wir einen unbekannten Datensatz mit geeigneten Verfahren kennenzulernen und schnell Muster in den Daten zu erkennen. Auf Basis dieser Muster formulieren wir Hypothesen. Diese Hypothesen können anschließend mit statistischen Modellen aus dem Bereich der schließenden Statistik auf ihre Gültigkeit überprüft werden. Dieser Schritt ist jedoch nicht Teil der explorativen Datenanalyse. Eine ausgezeichnete Einführung in die explorative Datenanalyse mit R gibt auch das Buch [R for Data Science](https://r4ds.had.co.nz/) von Hadley Wickham und Garrett Grolemund. Das Buch ist als Online-Buch frei zugänglich. ![Der Datenanalyseprozess nach Wickham & Grolemund 2016.](/files/nUw21TsuxheXp1ovrOnz) Wickham und Grolemund definieren den Datenanalyseprozess durch eine Abfolge bestimmter Schritte, wie in der Abbildung gezeigt. In diesem Abschnitt stehen die rot markierten Schritte im Fokus. ### Die Arbeitsumgebung Im ersten Schritt lernen wir die Arbeitsumgebung kennen. Diese besteht aus der R-Software und dem RStudio als Entwicklungsumgebung, die wir im ersten Schritt installieren und die wichtigsten Funktionen kennenlernen. {% content-ref url="/pages/-MfgFeMmaEghuDik6y7s" %} [Broken mention](broken://pages/-MfgFeMmaEghuDik6y7s) {% endcontent-ref %} ### Daten laden Jeder Analyseprozess beginnt mit dem Laden eines Datensatzes. Dabei gibt es verschiedene Datenquellen, die in Betracht gezogen werden müssen. Ein häufig verwendetes Format sind Komma-separierte Werte (***c**omma **s**eparated **v**alues* = CSV) in einfachen Textdateien. Dieses Format steht auch hier im Vordergrund. {% content-ref url="/pages/-MedMF7bTNEiv\_9jr2yr" %} [Broken mention](broken://pages/-MedMF7bTNEiv_9jr2yr) {% endcontent-ref %} Gemäß der Abbildung aus Wickham und Grolemund 2016 folgt auf das Laden der Daten der Arbeitsschritt „Tidy“. Dieser ist dann notwendig, wenn die Daten nicht in der typischen Form bestehend aus Spalten und Zeilen vorliegen. Leider ist das in der Praxis oft der Fall. In diesem Kurs wird aber zunächst davon ausgegangen, dass die Daten das entsprechende Format aufweisen. Die interessierte Leserin verweise ich auf das [Kapitel 12 im Buch „R for Data Science“](#explorative-datenanalyse-mit-r). ### Daten transformieren Das Ziel der explorativen Datenanalyse ist die Visualisierung der Daten mit geeigneten Diagrammen, um interessante Muster sichtbar werden zu lassen. Visualisierungen benötigen häufig nur einen Teil der Daten (wenige Spalten oder bestimmte Zeilen). Auch müssen wir oft neue Spalten berechnen oder bestehende Daten aggregieren, bevor wir sie visualisieren können. Alle diese Aufgaben können wir unter dem Bereich der Datentransformation zusammenfassen. Für diese Aufgaben bietet R mit dem Paket `dplyr` mächtige Funktionen. Insbesondere lernen wir in dem Abschnitt: * Wie wir bestimmte Spalten auswählen können (`select`). * Wie wir Zeilen fast beliebig filtern können (`filter`). * Wie wir neue, berechnete Spalten hinzufügen können (`mutate`). * Wie wir Zeilen sortieren können (`arrange`). * Wie wir Zeilen zusammenfassen und gruppieren können (`summarize` und `group_by`) {% content-ref url="/pages/QgTaaTvJruKEXfLH4TcK" %} [Five transformations](/data-transformation-with-r/five-transformations.md) {% endcontent-ref %} ### Daten visualisieren Das wichtigste Werkzeug in der explorativen Datenanalyse ist die Visualisierung von Daten. In R steht uns dafür mit `ggplot2` ein leistungsfähiges Instrument zur Verfügung. Wir lernen für bestimmte Anwendungsfälle die richtigen Visualisierungen zu identifizieren und mit `ggplot2` umzusetzen. {% content-ref url="/pages/-MYfwlp\_w150KD7647pt" %} [Broken mention](broken://pages/-MYfwlp_w150KD7647pt) {% endcontent-ref %} ## Literatur ### Bücher Wickham, Hadley, and Garrett Grolemund. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. First edition, O’Reilly, 2016. Online verfügbar: Wickham, Hadley. ggplot2. Springer Science+Business Media, LLC, 2016. Online verfügbar: Kabacoff, Robert. R in Action: Data Analysis and Graphics with R. Second edition, Manning, 2015. Sauer, Sebastian. Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren. Springer Gabler, 2019. Online verfügbar: ### Online-Dokumentationen Die offizielle Dokumentation der Tidyverse-Bibliotheken: {% embed url="" %} Ein Tutorial für die Einführung in R mit RStudio: {% embed url="" %} Ein Tutorial zu den Grundlagen der Datenmanipulation mit R, `tidyr` und `dplyr`: {% embed url="" %} Zwei weiterführende Anleitungen zur Datenmanipulation mit `dplyr`: {% embed url="" %} {% embed url="" %} --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://analytics.datalit.de/loading-data/11-der-analyseprozess.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.