Überblick
Last updated
Was this helpful?
Last updated
Was this helpful?
Für die Arbeit mit Daten existieren viele gute Werkzeuge. Die Funktionen der Werkzeuge überlappen oft und gleichzeitig hat jedes Werkzeug seine individuellen Stärken. In diesem Abschnitt gebe ich euch meine Einschätzung zu den Werkzeugen, die euch in diesem Buch begegnen und mit denen wir in den meinen Kursen mit Bezug zur Datenanalyse arbeiten.
SQL steht für Structured Query Language und hat seine Wurzeln bei den relationalen Datenbanken. Relationale Datenbanken wurden in den 1970er-Jahren zuerst entwickelt und kommerziell eingeführt. Sie werden vorrangig für die Verwaltung von strukturierten, operativen Geschäftsdaten verwendet. Bis heute sind relationale Datenbanken weitverbreitet, wir finden sie zum Beispiel in großen Informationssystemen wie einem ERP-System der Firma SAP.
Die Abfragesprache SQL wurde entwickelt, um relationale Datenbanken möglichst einfach abfragen zu können. Dabei lassen sich mit SQL Daten nicht nur abfragen, sondern auch erzeugen, verändern oder löschen. In diesem Buch geht es um die Analyse von Daten und wir betrachten deshalb nur die Möglichkeiten zur Abfrage von Daten.
Weil es viele unterschiedliche kommerzielle Hersteller relationaler Datenbanken gibt (z. B. , , , ) und daneben viele Open Source Produkte (z. B. , ) wurde SQL 1986 standardisiert (s. ANSI X3.135 und ). Trotz der Standardisierung, in der die grundlegende Syntax und der Funktionsumfang festgelegt wurden, gibt es heute unterschiedliche Dialekte von SQL. Diese unterscheiden sich in Details wie ob eine spezifische erweiterte Funktion existiert oder nicht. Durch die Standardisierung gilt aber: Wenn man SQL in einem Dialekt beherrscht, dann ist es ohne Probleme möglich auch andere Dialekte zu verwenden.
SQL ist somit unverzichtbar, wenn wir Daten aus relationalen Datenbanken abfragen oder exportieren wollen. Da viele Informationssysteme in Unternehmen auf relationalen Datenbanken basieren, spielt SQL gerade im betriebswirtschaftlichen Kontext eine große Rolle. Wegen der weiten Verbreitung von SQL ermöglichen auch andere Werkzeuge, Daten mit dieser Sprache zu analysieren. Ein Beispiel ist , ein Open-Source Werkzeug für die Verarbeitung und Analyse großer Datenmengen (Big Data). Hier gibt es eine eigene Schnittstelle (API) für SQL, die den Namen trägt. Wir verwenden Spark SQL in meinen Kursen in der . Klickt auf den Link unten, um direkt mit SQL zu beginnen.
Während SQL seine Stärken in der Abfrage und Verarbeitung von Daten hat, liegt die große Stärke von in der Anwendung von statistischen Berechnungen sowie der Visualisierung von Daten. R ist eine Programmiersprache und Entwicklungsumgebung zugleich. R ist eine sehr beliebte Sprache für die Datenanalyse, was auf drei Gründe zurückzuführen ist. Zum einen ist R als Open-Source-Software kostenlos nutzbar. Gleichzeitig ist R für alle Betriebssysteme verfügbar und kann relativ einfach auf jedem Rechner installiert werden. Beides hat zu einer hohen Verbreitung und in der Konsequenz zu einer großen Community geführt, die eine Fülle an erstellt hat. Daneben gibt es eine Menge an sogenannten Packages, die in einem R-Programm geladen werden können und die den Funktionsumfang der Sprache erweitern.
Ein Beispiel für ein Package ist , das Teil des Meta-Package ist. Tidyverse ist eine sorgfältig zusammengestellte Sammlung an Packages speziell für Data Science Aufgaben. Alle Pakete im Tidyverse folgen einer gemeinsamen Idee, wie wir über Daten denken und wie Werkzeuge für die Datenanalyse funktionieren sollen. Mit ggplot2
lassen sich fast beliebige Visualisierungen erstellen. Der Vorteil der Datenvisualisierung mit R im Vergleich zu Tools wie Tableau liegt darin, dass die Visualisierung in einem Skript erstellt wird. Das macht sie wiederholt ausführbar und somit automatisierbar. Ändern sich etwa die Daten in der Datenquelle, kann das R-Skript erneut ausgeführt werden und sämtliche darin erzeugt Grafiken sind auf dem aktuellen Stand. Auch ist ein Skript leicht mit anderen teilbar (z. B. via ) und somit die Wiederverwendung einfacher möglich. Änderungen, etwa die Schriftart für die Achsenbeschriftungen, müssen nur einmal verändert werden und gelten sofort für alle Visualisierungen (existierende oder neue).
Python als vollwertige Programmiersprache wird nicht nur in der Datenanalyse verwendet. Auch wenn Python in der Datenanalyse vielfältig einsetzbar ist, liegt seine Stärke in der Anwendung von Maschinellem Lernen. Bekannte und weitverbreitete Bibliotheken wie von Google, von Facebook oder wurden in Python geschrieben.
ist ein Werkzeug für die Visualisierung von Daten. Im Vergleich zu der Skript-basierten Datenvisualisierung mit R oder Python arbeiten wir in Tableau auf einer grafischen Benutzeroberfläche mittels Drag & Drop. Besonders die Möglichkeit, interaktive Visualisierungen und Dashboards zu erstellen, zeichnet Tableau aus. Tableau basiert wie ggplot2
auf der Grammar of Graphics.