POS Tagging
Last updated
Was this helpful?
Last updated
Was this helpful?
Mit den Daten aus können wir schon zuverlässig arbeiten. Es geht aber immer noch besser. Zum Beispiel könnten wir die Wörter mit weiteren Metainformationen anreichern, was uns wiederum bessere Analysemöglichkeiten eröffnet. Metadaten können sein:
Handelt es sich um ein Verb, Adjektiv oder Substantiv?
Wie lautet der Wortstamm?
Aus welcher Sprache stammt das Wort?
Ist das Wort positiv oder negativ behaftet?
Beim POS Tagging geht um den ersten Punkt. Wir wollen für jedes Wort die Information ergänzen, um welche Art von Wort es sich handelt. Ein naiver Ansatz ist es, ähnlich wie bei den Stopwörtern auf eine Liste aus dem Internet zurückzugreifen. Nehmen wir also an wir haben eine neue Tabelle pos
mit zwei Spalten word
und type
. Die Spalte type enthält Werte wie "adjective", "noun", "verb" usw. Wir können die beiden Tabellen nun zusammen joinen, um die Daten anzureichern:
Im Ergebnis bekommen wir nun zu jedem Wort die Information, ob es sich um ein Verb, Adverb, Adjektiv oder Substantiv handelt. Wenn das Wort nicht in der Tabelle pos
vorhanden ist, dann ist der Wert der Spalte type
gleich null
.
Wenn wir auch den letzten Schritt als View definieren sind wir am Ziel: