Spalten auswählen
Datensätze haben oft sehr viele Spalten. Für eine bestimmte Analyse interessiert uns meistens nur ein kleiner Teil davon. Mit R können wir Spalten flexibel auswählen.
Bestimmte Spalten anhand des Namens auswählen
Wir können mit R einzelne Spalten eines Dataframes anzeigen:
Es lassen sich auch mehr als eine Spalte angeben, wenn wir die Namen mit Komma separiert auflisten:
Spalten mit einem Namensmuster auswählen
Oft beabsichtigen wir Spalten auszuwählen, die ein bestimmtes Namensmuster aufweisen. Antwortspalten beinhalten etwa zu einer bestimmten Frage in der Marktforschung oft das Kürzel der Frage. Um alle Antwortspalten zu einer bestimmten Frage zu selektieren, könnten wir nach diesem Kürzel suchen. Mit dplyr
und select()
ist das einfach umsetzbar:
Weiterführende Dokumentation zu diesen vier Funktionen findet ihr hier:
Bestimmte Spalten aus der Auswahl ausschließen
Wir können mit der select()
Funktion auch Spalten aus der Auswahl ausschließen, indem wir ein Minuszeichen vor den Spaltennamen setzen:
Wir können das Minuszeichen auch in Kombination mit den bereits vorgestellten Funktionen verwenden:
Die ersten und letzten Spalten auswählen
Mit last_col()
können wir die letzte Spalte eines Tibble auswählen:
Als Parameter der Funktion können wir ein Offset übergeben, um die x-letzte Spalte auszuwählen:
In Kombination mit dem Doppelpunkt :
können wir so bestimmte aufeinanderfolgende Spalten auswählen:
Spalten nach Datentyp selektieren
Wir können mit der where()
Funktion auch Spalten bezüglich des Datentyps auswählen:
Mengen von Spalten definieren und selektieren
Häufig benötigt man mehrmals die gleichen Spalten. Um nicht jedes Mal die gesamte Liste aufführen zu müssen, können wir in diesem Fall einen Vektor definieren, der die Namen der Spalten enthält. Mit der all_of()
Funktion können wir dann alle Spalten in diesem Vektor auswählen:
Mit any_of()
können wir auch Spalten im Vektor aufnehmen, die nicht existieren. Es werden alle Spalten selektiert, die in der Liste vorkommen und auch tatsächlich im Tibble vorhanden sind. So können wir einen Vektor erstellen, der Spaltennamen aus unterschiedlichen Datensätzen beinhaltet:
Weiterführende Quellen
Die offizielle Dokumentation beinhaltet weitere Informationen und Beispiele:
In Kapitel 5 des Buches „R for Data Science“ wird die Datentransformation mit dplyr
behandelt. Der folgende Link führt direkt zum Abschnitt über die select
Funktion:
Last updated
Was this helpful?