Data Analytics
  • Overview
  • Empirical Research
    • 1 Research Questions
    • 2 Data Collection
    • 3 Signal and Noise
    • 4 Types of Questions
      • Finding Individual Records
      • Summarizing Data
      • Exploring Data
      • Drawing Conclusions from Data
      • Fehlende Informationen vorhersagen
      • Kausalität feststellen
    • 5 Data
      • Data Sets
      • Data Records
      • Data Attributes
      • Data Types
      • Scales
      • Data Formats
        • Das CSV-Format
        • Das JSON-Format
        • Das Parquet-Format
    • 6 Tools
      • Projects
  • Introduction to R
    • 7 The Problem
    • 8 Vectors
    • 9 Data Frames
    • Simulations
    • Logic and Arithmetic
    • Objects and Variables
    • Data structures
    • Control structures
    • Loops
      • Die For-Schleife
      • Die While-Schleife
      • Die Repeat-Schleife
    • Functions
    • Readability and Reusability
  • Loading Data
    • Tidyverse and Tibbles
    • Load a data set
    • Load from multiple files
    • Getting to know the Data
    • Der Analyseprozess
    • Der Werkzeugkasten
  • Data Transformation
    • Five transformations
    • Select columns
    • Filter rows
    • Add columns
    • Change columns
      • Spalten verändern
    • Sort rows
    • Summarize rows
    • SQL and R
  • Data Visualization
    • Pleas for data visualization
    • Overview of ggplot2
    • Visualisierungsformen
      • Trends und Entwicklungen
      • Distributions
      • Word Clouds
      • Mengen und Proportionen
      • Geospatial Data
    • Formatting plots
      • Achsenformatierung
    • Multiple plots
    • Stolperfallen
      • Abgeschnittene y-Achse
      • Duale y-Achse
      • Non-Proportional Ink
    • Übungen
      • 💻Transformation der REWE-Daten
      • 💻Übung zur Datenvisualisierung
  • Communication
    • Quarto
  • SQL
    • Grundlagen SQL
      • Was ist SQL?
      • Daten importieren
      • Spalten und Ausdrücke auswählen
      • Zeilen filtern
      • Zeilen aggregieren und gruppieren
      • Aggregierte Zeilen filtern
      • Zeilen sortieren
      • 💻Übungen
    • Erweitertes SQL
      • Views
      • Mengenoperatoren
      • Unterabfragen
      • Window-Funktionen
      • Datum und Zeit
      • JSON
      • Arrays
      • Statistische Funktionen
    • Joins mit SQL
      • Das relationale Modell
      • Verbinden von Tabellen
      • Datensätze anreichern
    • Textanalysen mit SQL
      • In Texten suchen
      • Wörter analysieren
        • Daten vorfiltern
        • Säubern und Normalisieren
        • Tokenisieren und Zählen
        • Stopwörter filtern
        • POS Tagging
      • Themen identifzieren
      • Wortpaare
      • Netzwerke
      • Emoticons extrahieren
      • NLP mit spaCy
        • spaCy in Databricks installieren
        • Die NLP Pipeline
          • Tokenize
          • Part-of-Speech (POS)
          • Named Entities (NER)
          • Lemmatizer
          • Syntaktische Abhängigkeiten
        • spaCy und Spark SQL
          • spaCy und UDFs
          • Texte mit spaCy streamen
  • Data Sets & Exercises
    • Übungen
      • SQL
        • ⭐Die Simpsons Teil 1
        • ⭐Die Simpsons Teil 2
      • R
    • Fallstudien
      • Morde in Chicago
    • Datensätze
      • 📂Environmental Impacts of Food Production
      • 📂Amazon Reviews
      • 📂arXiv Papers
      • 📂Chicago Crimes
      • 📂Covid19
      • 📂Open Food Facts
      • 📂Orangenlimonade
      • 📂REWE Online Products
      • 📂Simpsons
      • 📂TED Talks
      • 📂Tweets
  • References
Powered by GitBook
On this page
  • Das spaCy Modul installieren
  • Ein vortrainiertes Modell für eine Sprache installieren
  • Modelle für englische Texte
  • Modelle für deutsche Texte
  • Links

Was this helpful?

  1. SQL
  2. Textanalysen mit SQL
  3. NLP mit spaCy

spaCy in Databricks installieren

Wir lernen, wie wir die Python-Bibliothek spaCy installieren können, um es direkt in einem Databricks-Notebook verwenden zu können.

PreviousNLP mit spaCyNextDie NLP Pipeline

Last updated 4 years ago

Was this helpful?

Das spaCy Modul installieren

In einem Python-Notebook in Databricks können wir mittels des Präfixes %pip direkt auf den pip-Befehl zugreifen und spaCy installieren. Details zur Installation findet ihr auch auf der:

%pip install spacy

Hinweis: Durch den pip-Befehl wird spaCy nur im Scope des aktuellen Notebooks installiert. Sobald der Cluster ausgetauscht wird oder das Notebook vom Cluster getrennt und wieder verbunden wurde, muss der Befehl erneut ausgeführt werden. Das gilt auch für die geladenen Sprachmodelle. Mehr dazu findet ihr .

Ein vortrainiertes Modell für eine Sprache installieren

Um spaCy mit einer bestimmten Sprache wie Deutsch oder Englisch verwenden zu können, also um Texte in dieser Sprache analysieren zu können, müssen wir zuerst die entsprechenden Modelle herunterladen. Die Modelle beinhalten u. a. Listen für Stopwörter. Aber auch statistische Modelle in Form von neuronalen Netzen, die für genau diese Sprache mit einem sehr großen Trainingsdatensatz trainiert wurden. Mit diesen Modellen können wir z. B. Entitäten erkennen, POS-Tagging vornehmen, syntaktische Analysen durchführen oder Ähnlichkeiten zwischen Wörtern oder Texten bestimmen.

spaCy bietet für sehr viele Sprachen vortrainierte Modelle an, die wir herunterladen und verwenden können. Im Folgenden sind die Modelle für Deutsch und Englisch aufgeführt. Für jede der beiden Sprachen gibt es Modelle unterschiedlicher Größe. Der Unterschied zwischen den Modellen ist die Informationsmenge und die zugrunde liegenden Trainingsdaten. Kleinere Modelle sind schneller und verwenden weniger Speicherplatz, sind dafür aber tendenziell ungenauer in ihren Vorhersagen.

Modelle für englische Texte

# Kleines Modell (small) (13 MB)
%pip install "https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz"

# Mittleres Modell (medium) (45 MB)
%pip install "https://github.com/explosion/spacy-models/releases/download/en_core_web_md-2.2.5/en_core_web_md-2.2.5.tar.gz"

# Großes Modell (large) (743 MB)
%pip install "https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-2.2.5/en_core_web_lg-2.2.5.tar.gz"

Modelle für deutsche Texte

Für die deutsche Sprache stehen nur 2 Modellgrößen zur Verfügung:

# Kleines Modell (small) (18 MB)
%pip install "https://github.com/explosion/spacy-models/releases/download/de_core_news_sm-2.2.5/de_core_news_sm-2.2.5.tar.gz"

# Mittleres Modell (medium) (47 MB)
%pip install "https://github.com/explosion/spacy-models/releases/download/de_core_news_md-2.2.5/de_core_news_md-2.2.5.tar.gz"

Das war es schon, wir können im nächsten Schritt ein vorher heruntergeladenes Modell auf Texte anwenden.

Links

Weitere Modelle für andere Sprachen:

Dokumentation der deutschen Modelle:

Dokumentation der englischen Modelle:

offiziellen Dokumentation
hier
English · spaCy Models DocumentationEnglish
German · spaCy Models DocumentationGerman
Models & Languages · spaCy Usage DocumentationModels & Languages
Logo
Logo
Logo