Vorbereitung
Falls nicht bereits im ersten Teil der Aufgabe geschehen: Importiert das folgende Notebook als Template für die Aufgaben unten. Das Notebook enthält einen Block für das Importieren der Daten in euren Databricks-Account. Fügt anschließend die Lösungen als neue Blöcke in das Notebook. Kopiert die Fragen in die Überschrift des Blocks mit der jeweiligen Lösung!
Aufgabe
1. Beantwortet die folgenden Fragen mit einem SQL-Statement!
Frage 1: An welchem Ort spricht Homer am häufigsten?
Frage 2: Listet alle Dialoge der 10. Folge aus der ersten Staffel in der Reihenfolge, in der sie gesprochen wurden! Das Ergebnis soll den Text, den Namen des Charakters sowie den Namen des Ortes beinhalten.
Frage 3: Wer ist der häufigste Gast im Haus der Familie Simpson?
Frage 4: Erstellt eine sortierte Liste mit den Sprachanteilen (in %) aller Charaktere in Season 2.
Frage 5: Erstellt eine Top 10 der Charaktere, die am meisten fluchen!
2. Bonus
Erstellt eine Top-Liste der am meisten gesagten Wörter über alle Datensätze hinweg. Wie könnte ein allgemeines, von SQL unabhängiges Verfahren, zur Lösung dieser Frage aussehen? Was müsstet ihr Schritt für Schritt machen?
Datenmodell
Die Grafik unten zeigt die vier Tabellen mit den Spalten. Die Pfeile zeigen die Beziehungen zwischen den Tabellen.