Syntaktische Abhängigkeiten
Manchmal ist die Information hilfreich, zu welchem Wort in einem Satz ein anderes Wort gehört und welche Beziehung die Wörter untereinander haben.
Der syntaktische Baum
Wenn der parser Teil der NLP-Pipeline ist, haben wir Zugriff auf unterschiedliche syntaktische Informationen der einzelnen Tokens. Der folgende Code zeigt ein Beispiel für die Ausgabe des gesamten syntaktischen Baums. In diesem Baum hat jedes Token einen sogenannten Kopf (head), das den übergeordneten Knoten im Baum angibt. Zudem hat jedes Token möglicherweise Kinder (children), die wiederum dieses Token als Kopf haben.
Die Ausgabe des Beispiels sieht wie folgt aus:
Visualisierung des syntaktischen Baums
Eine Baumstruktur biete sich für die visuelle Darstellung an. spaCy bietet mit displaCy
eine Möglichkeit für die direkte Visualisierung von Syntaxbäumen sowie den Export als Vektorgrafik (.svg
).
Zunächst zeigen wir die Visualisierung in Databricks an. Das können wir, indem wir die Grafik als HTML rendern lassen und mit dem displayHTML()
Befehl anzeigen:
Das Ergebnis sieht ungefähr so aus (die Grafik ist rechts abgeschnitten):
Um die Grafik weiterverwenden zu können, bietet sich ein Export an. Mit displaCy können wir eine Vektorgrafik erzeugen und speichern. Im ersten Schritt erzeugen wir die Grafik:
Anschließend können wir die Grafik in den öffentlich zugänglichen Dateibereich in Databricks kopieren (FileStore
) und von dort mittels eines HTML-Links herunterladen:
Zusammengesetzte Nomen (Noun Chunks)
Der parser kann auch Wörter identifizieren, die zusammengehören:
Die Ausgabe sieht wie folgt aus:
Der parser hat erkannt, dass "Michael Jordan" zwei Wörter sind, die zusammengehören. Ebenso wie "the team" oder "the Chicago Bulls".
Links
Erfahrt mehr über das Dependency Parsing in spaCy unter diesem Link:
Mehr zu den Möglichkeiten der Visualisierung in spaCy findet ihr hier:
Last updated
Was this helpful?