Load a data set
Der Beginn jeder Analyse ist das Laden der Daten. In R steht uns mit readr ein mächtiges Paket für die häufig verwendeten CSV-Dateien zur Verfügung.
Last updated
Was this helpful?
Der Beginn jeder Analyse ist das Laden der Daten. In R steht uns mit readr ein mächtiges Paket für die häufig verwendeten CSV-Dateien zur Verfügung.
Last updated
Was this helpful?
In diesem Abschnitt lernen wir die ersten Schritte im Umgang mit Tibbles am Beispieldatensatz . Der Datensatz ist relativ klein und überschaubar und eignet sich daher gut für die Einführung der wichtigsten Konzepte.
Der folgende Code lädt die oben verlinkte Datei und erstellt daraus ein Tibble:
Damit wir den Dateinamen ohne Pfadangabe verwenden können, müssen wir vorher das Arbeitsverzeichnis (Working Directory) in RStudio auf den Ordner festlegen, in dem die Datei liegt. Alternativ können wir auch einen absoluten oder relativen Pfad inklusive Dateinamen angeben.
Wir können das Arbeitsverzeichnis auch zu Beginn unseres Skripts festlegen:
Auch das Lesen des aktuellen Arbeitsverzeichnisses ist möglich:
Achtung: Die Pfadangabe für setwd()
muss immer mit Forward-Slashes (/
) erfolgen. Unter Windows enthalten Pfade den Backslash (\
). Dieser muss vorher ersetzt werden.
readr
Das fertige Tibble wird auf einer Variable mit dem Namen food_production
gespeichert. Eine Zuweisung eines Wertes zu einer Variablen nehmen wir in R mit der Zeichenfolge <-
vor.
Wir können jetzt überprüfen, ob der Datensatz korrekt geladen wurde. Dazu geben wir in unser Skript einfach den Befehl view()
ein und übergeben als Parameter den Namen des gerade erstellen Tibble. Mit ⌨ Strg + Enter oder über den Button „Run“ in der rechten oberen Ecke des Skriptfensters führen wir die Zeile aus. Es öffnet sich ein neuer Tab mit einer tabellarischen Ansicht der Daten.
Eine Alternative zu Verwendung der view()
Funktion ist die direkte Eingabe des Tibble-Namens in den Skripteditor und das anschließende Ausführen. In diesem Fall erscheint die Ausgabe in der Konsole (s. unten). Im Vergleich zu einem Standard-Dataframe ist die Ausgabe eine Tibbles besser durchdacht. So wird direkt zu Beginn die Dimensionierung angegebene (Zeilen x Spalten). Zudem gibt einTibble für jede Spalte den Datentyp als Kürzel mit aus. Die Ausgabe der Daten an sich wird auf wenige Beispielzeilen beschränkt, sodass man nicht lange scrollen muss. Als Ausgleich wird unten angegeben, wie viele weitere Spalten (Variables) und Zeilen (Rows) im Datensatz enthalten sind.
Nachdem wir unseren ersten Datensatz geladen haben, wollen wir uns im nächsten Abschnitt anschauen, wie wir erste Informationen zum Datensatz mit R extrahieren können.
Für das Laden strukturierter Daten wie etwa CSV-Dateien eignet sich das in Tidyverse enthaltene Paket . Wenn wir Tidyverse bereits installiert haben, müssen wir in unserem Skript nur noch angeben, dass wir das Paket readr
nutzen wollen. Anschließend steht uns die Funktion read_csv()
zur Verfügung, die entweder einen Pfad- und Dateinamen auf dem lokalen Rechner erwartet oder die Angabe einer URL. Das ist beispielsweise dann nützlich, wenn wir einen Datensatz laden wollen, der im Internet frei zugänglich ist.