Vorbereitung
Importiert das folgende Notebook als Template für die Aufgaben unten. Das Notebook enthält einen Block für das Importieren der Daten in euren Databricks-Account. Fügt anschließend die Lösungen als neue Blöcke in das Notebook. Kopiert die Fragen in die Überschrift des Blocks mit der jeweiligen Lösung!
Aufgabe
1. Den Datensatz erkunden
Beantwortet die folgenden Fragen, um den Datensatz unabhängig von seinem Inhalt besser kennenzulernen:
Aus wie vielen Tabellen besteht der Datensatz?
Wie viele Zeilen hat jede Tabelle?
Welche Spalten haben die Tabellen? Was ist der Datentyp jeder Spalte? Was könnte der Inhalt sein?
Welche Wertebereiche weisen die Spalten auf?
2. Beantwortet die folgenden Fragen mit einem SQL-Statement!
Bevor ihr mit dem Schreiben des SQL-Statements beginnt, überlegt euch die folgenden Punkte:
Wie müsste das Ergebnis aussehen, um die Frage beantworten zu können? Ist es ein Wert? Sind es mehrere Werte in einer Zeile? Sind es mehrere Zeilen? Suchen wir eine bestimmte Zeile, oder ist das Ergebnis die Zusammenfassung mehrerer Zeilen?
Versucht euch nun an diesen Fragen:
Frage 1: Wie viele Simpsons Episoden gibt es insgesamt im Datensatz?
Frage 2: Wie viele Charaktere sind weiblich?
Frage 3: Wie ist das zahlenmäßige Verhältnis zwischen weiblichen und männlichen Charakteren?
Frage 4: Wie viele Folgen haben ein IMDB-Rating von 9 oder höher?
Frage 5: Wie viele Folgen wurden 1995 zum ersten Mal ausgestrahlt?
Frage 6: Wie oft wir Barack Obama in allen Episoden genannt?
Frage 7: Welcher Charakter spricht am meisten?
Frage 8: Wie oft sagen Charaktere außer Homer das Wort "Donut"?
Frage 9: Wer erklärt Homer das Wort „Schadenfreude“?
Frage 10: Gibt es eine Folge, in der Lisa kein einziges Mal spricht?
Datenmodell
Die Grafik unten zeigt die vier Tabellen mit den Spalten. Die Pfeile zeigen die Beziehungen zwischen den Tabellen an.
Lösung
1. Den Datensatz erkunden
Wie viele Zeilen hat jede Tabelle?
Welche Spalten haben die Tabellen? Was ist der Datentyp jeder Spalte? Was könnte der Inhalt sein?
Welche Wertebereiche weisen die Spalten auf?
2. Beantwortet die folgenden Fragen mit einem SQL-Statement!
Wie müsste das Ergebnis aussehen, um die Frage beantworten zu können? Ist es ein Wert? Sind es mehrere Werte in einer Zeile? Sind es mehrere Zeilen? Suchen wir eine bestimmte Zeile, oder ist das Ergebnis die Zusammenfassung mehrerer Zeilen?
Frage 1: Wie viele Simpsons Episoden gibt es insgesamt im Datensatz?
Frage 2: Wie viele Charaktere sind weiblich?
Frage 3: Wie ist das zahlenmäßige Verhältnis zwischen weiblichen und männlichen Charakteren?
Frage 4: Wie viele Folgen haben ein IMDB-Rating von 9 oder höher?
Frage 5: Wie viele Folgen wurden 1995 zum ersten Mal ausgestrahlt?
Frage 6: Wie oft wir Barack Obama in allen Episoden genannt?