Stopwörter filtern
Last updated
Was this helpful?
Last updated
Was this helpful?
Wir haben nun jeweils ein Wort pro Zeile in der Spalte word
. Das ermöglicht es uns nun theoretisch, Analysen auf den Texten mittels SQL durchzuführen. Wir könnten z.B. zählen, welches Wort in allen Tweets am häufigsten vorkommt:
Je nach Datensatz wird bei euch nun z. B. ein Wort wie "organic" weit oben stehen. Das ist nicht verwunderlich, da wir die Tweets nach diesem Wort gefiltert haben. Sehr weit oben stehen aber auch Wörter wie "a", "the", "is", "to", "rt" usw. Das sind Wörter, die in der englischen Sprache häufig vorkommen, uns aber wenig Aufschluss in der Analyse geben. Deshalb sind sie unerwünscht, und wir nennen sie auch Stopwörter.
Wir könnten nun eine Liste von Stopwörtern erstellen und diese aus der Menge mittels where
Bedingung ausschließen:
Wenn wir die Liste für alle Stopwörter erweitern, wird diese sehr lang und das SQL-Statement unübersichtlich. Zudem dauert das eine Weile. Glücklicherweise sind wir nicht die Ersten mit diesem Problem, und kluge Leute haben Listen für verschiedene Sprachen veröffentlicht, wie z.B. .
Angenommen, wir haben diese Liste als neue Tabelle stopwords
in Databricks importiert. Wir können nun eine Unterabfrage statt der manuellen Liste nutzen:
Das Ergebnis aus Schritt 4 als View sähe demnach so aus: