Das CSV-Format
Last updated
Was this helpful?
Last updated
Was this helpful?
In der habt ihr mit dem gearbeitet. Diesen stellt im CSV-Format zum Download bereit. Was hat es mit diesem Format auf sich?
CSV steht für Comma Separated Values und es beschreibt ein Format, um strukturierte Daten in einer Textdatei abzuspeichern. Du erkennst eine Textdatei im CSV-Format an der Endung .csv
.
Das CSV-Format ist das am weitesten verbreitete Format für den Austausch von strukturierten Daten. Fast jede Software, die Daten verwaltet oder analysiert, bietet Schnittstellen für CSV-Dateien an. Es gibt gute Gründe, warum sich das Format als universelle Lösung eignet:
Die Verwendung von einfachen Textdateien erlaubt die Speicherung und Verarbeitung auf unterschiedlichen Umgebungen wie Windows, Mac OS oder Linux.
Das Format ist sehr einfach zu verstehen und daher auch für Menschen in einem Texteditor prinzipiell lesbar.
Es ist ein offenes Format, d. h. es gibt keine Firma, die daran die Rechte besitzt und es kann daher von jeder Software verwendet werden. Es gab lange nicht einmal eine offizielle Spezifikation des Formats. Mittlerweile gibt es eine Spezifikation als .
Das CSV-Format speichert strukturierte Daten in einer tabellarischen Form, ähnlich wie in Spreadsheets. Jede Zeile stellt einen Datensatz dar, und jeder Datensatz hat verschiedene Attribute (Spalten), deren Werte durch ein Komma voneinander getrennt sind. Dass ein Komma als Trennzeichen verwendet wird, ist jedoch keineswegs verbindlich. Generell kann jedes Symbol verwendet werden. Häufige Alternativen sind das Semikolon, Leerzeichen oder ein Tabstop.
Der Screenshot unten zeigt den in einem einfachen Texteditor (). Man erkennt schnell, dass sie erste Zeile sich von den anderen unterscheidet: Sie beinhaltet die Spaltennamen, die hintereinander durch das Trennzeichen (hier: Komma) getrennt aufgelistet werden. Man nennt die erste Zeile auch Kopfzeile (Englisch: Header).
Die Kopfzeile ist nicht verpflichtend. Es gibt auch CSV-Dateien ohne Kopfzeile. In diesem Fall muss die Benennung der Spalten später manuell erfolgen.
Jede Zeile nach der Kopfzeile stellt einen Datensatz dar. Für jeden Datensatz werden die Spaltenwerte in der gleichen Reihenfolge wie in der Kopfzeile durch das Trennzeichen (hier: Komma) voneinander getrennt aufgelistet. Es muss nicht für jeden Datensatz jeder Wert existieren. Sollte ein Wert nicht vorhanden sein, so wird einfach nach dem Komma nichts eingetragen und es folgen zwei Kommata nacheinander (für ein Beispiel siehe rote Markierung in Zeile 3 oben).
Die Bezeichnung und Dateiendung .csv
hat sich als Standard durchgesetzt, auch wenn nicht zwangsweise das Komma als Trennzeichen verwendet werden muss. Häufige Trennzeichen sind auch das Semikolon oder ein Tabstop. Beim letzterem wird manchmal die Dateiendung .tsv
verwendet. Grundsätzlich kann jedes beliebige Zeichen als Trennzeichen verwendet werden.
Wenn ihr CSV-Dateien ladet, ist es wichtig zu wissen, welches Trennzeichen verwendet wird. Oft können Programme das selbst erkennen. Es ist aber immer besser sich zu vergewissern, dass das richtige Trennzeichen erkannt wurde, weil ansonsten die Daten fehlerhaft eingelesen werden.