Data Attributes
Auch auf Attribut- oder Merkmalsebene können wir wichtige Dimensionen identifizieren und daraus bestimmte Eigenschaften ableiten.
Last updated
Was this helpful?
Auch auf Attribut- oder Merkmalsebene können wir wichtige Dimensionen identifizieren und daraus bestimmte Eigenschaften ableiten.
Last updated
Was this helpful?
Die Abbildung unten zeigt eine schematische Einordnung für Skalen, mit denen wir Daten messen. Die erste Ebene unterteilt Daten in strukturiert und unstrukturiert. Alle Skalen, über die wir im Folgenden mehr erfahren, können sinnvoll nur auf strukturierte Daten bezogen werden. Unstrukturierte Daten müssen erst durch Transformation in eine strukturierte Form überführt werden.
Die strukturierten Daten können wir weiter in kategorische und numerische Daten unterteilen. Darunter finden wir die drei Skalen Nominal-, Binär- und Ordinalskala.
Die Nominalskala erlaubt alle Werte, die nicht numerisch sind oder als numerische Werte interpretiert werden sollen. Tatsächlich können auch ganze Zahlen auf der Nominalskala gemessen werden, wenn die Zahlen als Symbole zu interpretieren sind.
Die binäre Skala ist ein Spezialfall der Nominalskala. Die binäre Skala lässt nur 2 Werte zu, nämlich Wahr oder Falsch (TRUE
/ FALSE
).
Faktor
Ganze Zahlen (Integer)
Reelle Zahlen
Unterschiedliche Werkzeuge und Datenbanken verwenden für die Darstellung von Daten unterschiedlicher Skalierung (s. oben) bestimmte Datentypen. Indem wir einer Variable einen Datentyp zuweisen, definieren wir, wie die Werte dieser Spalte grundsätzlich aussehen müssen.
R unterscheidet grundsätzlich vier primitive Datentypen:
INTEGER
DOUBLE
CHARACTER
LOGICAL
Überdies gibt es weitere Datentypen in R, die sich jedoch aus diesen vier primitiven Datentypen ableiten. So gibt es etwa den FACTOR
, der einen diskreten primitiven Datentyp (INTEGER
, CHARACTER
, LOGICAL
) auf eine Nominalskala überträgt. Es gibt dann eine definierte Menge erlaubter Werte, denen implizit auch eine bestimmte Reihenfolge zugrunde liegt. Diese Reihenfolge ist intern immer vorhanden, muss aber nicht im Sinne einer Ordinalskala (z. B. besser/schlechter) verstanden werden, kann aber.
Relationale Datenbanken verfügen in den meisten Fällen über eine große Fülle an Datentypen. Je nach Anwendungsfall kann hier aus unterschiedlichen Varianten des gleichen Datentyps gewählt werden.
DATE
DATETIME
DATETIME2
SMALLDATETIME
DATETIMEOFFSET
TIME
Der einfache DATE
-Typ kann zum Beispiel nur Werte wie "2022-01-01
" speichern, während DATETIME
so etwas wie "2022-01-01 22:34
" abbilden kann, also auch die Uhrzeit mit Sekundengenauigkeit.
Wie viele NA
s?
Bruce, Peter C., et al. Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python. Second edition, O’Reilly Media, Inc, 2020.
Die binäre Skala wird in Werkzeugen und Datenbanken durch entsprechende Datentypen umgesetzt. In R gibt es dafür den Datentyp LOGICAL
. In den meisten Programmiersprachen gibt es den Datentyp BOOLEAN
, abgeleitet aus der .
Die Oracle-Datenbank INTEGER
, SHORTINTEGER
und LONGINTEGER
. Die drei Datentypen unterscheiden sich nach der reservierten Größe in Byte und somit dem Wertebereich ganzer Zahlen, die abgebildet werden können. Wenn wir etwa das Alter einer Person in einer Spalte speichern wollen, so können wir den kleinsten der drei auswählen (SHORTINTEGER
) und so unsere Datenbank insgesamt verkleinern.
Wie auch R unterscheiden die meisten Datenbanken zwischen einem einfachen Datum im und einer Datumsangabe inklusive Uhrzeitangabe (ebenfalls im ISO-Standard definiert).
Die Microsoft SQL Server Datenbank in der Version 2019 :