spaCy in Databricks installieren
Wir lernen, wie wir die Python-Bibliothek spaCy installieren können, um es direkt in einem Databricks-Notebook verwenden zu können.
Last updated
Was this helpful?
Wir lernen, wie wir die Python-Bibliothek spaCy installieren können, um es direkt in einem Databricks-Notebook verwenden zu können.
Last updated
Was this helpful?
In einem Python-Notebook in Databricks können wir mittels des Präfixes %pip
direkt auf den pip
-Befehl zugreifen und spaCy installieren. Details zur Installation findet ihr auch auf der:
Hinweis: Durch den pip
-Befehl wird spaCy nur im Scope des aktuellen Notebooks installiert. Sobald der Cluster ausgetauscht wird oder das Notebook vom Cluster getrennt und wieder verbunden wurde, muss der Befehl erneut ausgeführt werden. Das gilt auch für die geladenen Sprachmodelle. Mehr dazu findet ihr .
Um spaCy mit einer bestimmten Sprache wie Deutsch oder Englisch verwenden zu können, also um Texte in dieser Sprache analysieren zu können, müssen wir zuerst die entsprechenden Modelle herunterladen. Die Modelle beinhalten u. a. Listen für Stopwörter. Aber auch statistische Modelle in Form von neuronalen Netzen, die für genau diese Sprache mit einem sehr großen Trainingsdatensatz trainiert wurden. Mit diesen Modellen können wir z. B. Entitäten erkennen, POS-Tagging vornehmen, syntaktische Analysen durchführen oder Ähnlichkeiten zwischen Wörtern oder Texten bestimmen.
spaCy bietet für sehr viele Sprachen vortrainierte Modelle an, die wir herunterladen und verwenden können. Im Folgenden sind die Modelle für Deutsch und Englisch aufgeführt. Für jede der beiden Sprachen gibt es Modelle unterschiedlicher Größe. Der Unterschied zwischen den Modellen ist die Informationsmenge und die zugrunde liegenden Trainingsdaten. Kleinere Modelle sind schneller und verwenden weniger Speicherplatz, sind dafür aber tendenziell ungenauer in ihren Vorhersagen.
Für die deutsche Sprache stehen nur 2 Modellgrößen zur Verfügung:
Das war es schon, wir können im nächsten Schritt ein vorher heruntergeladenes Modell auf Texte anwenden.
Weitere Modelle für andere Sprachen:
Dokumentation der deutschen Modelle:
Dokumentation der englischen Modelle: