Data Analytics
  • Overview
  • Empirical Research
    • 1 Research Questions
    • 2 Data Collection
    • 3 Signal and Noise
    • 4 Types of Questions
      • Finding Individual Records
      • Summarizing Data
      • Exploring Data
      • Drawing Conclusions from Data
      • Fehlende Informationen vorhersagen
      • Kausalität feststellen
    • 5 Data
      • Data Sets
      • Data Records
      • Data Attributes
      • Data Types
      • Scales
      • Data Formats
        • Das CSV-Format
        • Das JSON-Format
        • Das Parquet-Format
    • 6 Tools
      • Projects
  • Introduction to R
    • 7 The Problem
    • 8 Vectors
    • 9 Data Frames
    • Simulations
    • Logic and Arithmetic
    • Objects and Variables
    • Data structures
    • Control structures
    • Loops
      • Die For-Schleife
      • Die While-Schleife
      • Die Repeat-Schleife
    • Functions
    • Readability and Reusability
  • Loading Data
    • Tidyverse and Tibbles
    • Load a data set
    • Load from multiple files
    • Getting to know the Data
    • Der Analyseprozess
    • Der Werkzeugkasten
  • Data Transformation
    • Five transformations
    • Select columns
    • Filter rows
    • Add columns
    • Change columns
      • Spalten verändern
    • Sort rows
    • Summarize rows
    • SQL and R
  • Data Visualization
    • Pleas for data visualization
    • Overview of ggplot2
    • Visualisierungsformen
      • Trends und Entwicklungen
      • Distributions
      • Word Clouds
      • Mengen und Proportionen
      • Geospatial Data
    • Formatting plots
      • Achsenformatierung
    • Multiple plots
    • Stolperfallen
      • Abgeschnittene y-Achse
      • Duale y-Achse
      • Non-Proportional Ink
    • Übungen
      • 💻Transformation der REWE-Daten
      • 💻Übung zur Datenvisualisierung
  • Communication
    • Quarto
  • SQL
    • Grundlagen SQL
      • Was ist SQL?
      • Daten importieren
      • Spalten und Ausdrücke auswählen
      • Zeilen filtern
      • Zeilen aggregieren und gruppieren
      • Aggregierte Zeilen filtern
      • Zeilen sortieren
      • 💻Übungen
    • Erweitertes SQL
      • Views
      • Mengenoperatoren
      • Unterabfragen
      • Window-Funktionen
      • Datum und Zeit
      • JSON
      • Arrays
      • Statistische Funktionen
    • Joins mit SQL
      • Das relationale Modell
      • Verbinden von Tabellen
      • Datensätze anreichern
    • Textanalysen mit SQL
      • In Texten suchen
      • Wörter analysieren
        • Daten vorfiltern
        • Säubern und Normalisieren
        • Tokenisieren und Zählen
        • Stopwörter filtern
        • POS Tagging
      • Themen identifzieren
      • Wortpaare
      • Netzwerke
      • Emoticons extrahieren
      • NLP mit spaCy
        • spaCy in Databricks installieren
        • Die NLP Pipeline
          • Tokenize
          • Part-of-Speech (POS)
          • Named Entities (NER)
          • Lemmatizer
          • Syntaktische Abhängigkeiten
        • spaCy und Spark SQL
          • spaCy und UDFs
          • Texte mit spaCy streamen
  • Data Sets & Exercises
    • Übungen
      • SQL
        • ⭐Die Simpsons Teil 1
        • ⭐Die Simpsons Teil 2
      • R
    • Fallstudien
      • Morde in Chicago
    • Datensätze
      • 📂Environmental Impacts of Food Production
      • 📂Amazon Reviews
      • 📂arXiv Papers
      • 📂Chicago Crimes
      • 📂Covid19
      • 📂Open Food Facts
      • 📂Orangenlimonade
      • 📂REWE Online Products
      • 📂Simpsons
      • 📂TED Talks
      • 📂Tweets
  • References
Powered by GitBook
On this page

Was this helpful?

  1. SQL
  2. Textanalysen mit SQL
  3. NLP mit spaCy
  4. Die NLP Pipeline

Tokenize

spaCy führt beim Anwenden der nlp() Funktion unterschiedliche Operationen auf dem übergebenen Text in einer bestimmten Reihenfolge aus. Der erste Schritt ist der tokenizer. Das Wort tokenize bedeutet so viel wie den Text in einzelne kleine Blöcke zu unterteilen. Damit sind zum einen die Wörter gemeint, aber auch Satzzeichen oder Zahlen können ein Token sein. Die Trennung erfolgt normalerweise anhand des Trennzeichens, was im Standard das Leerzeichen ist. Es gibt aber auch Ausnahmen, die als Regeln in spaCy hinterlegt sind. Z. B. wird das Wort "don't" im Englischen ebenfalls in 2 Tokens getrennt: "do" und "'t".

Das Ergebnis des tokenizers liegt nach Ausführen der nlp() Funktion im Ergebnisobjekt doc vor:

import spacy

# Load English model
nlp = spacy.load("en_core_web_sm")

# Define the text and store it on a variable
text = "I am looking forward to learning about NLP with spaCy!"

# Run the NLP pipeline and save result on variable 'doc'
doc = nlp(text)

# Iterate over the tokens
for token in doc:
    # Print the text for each token
    print(token.text)

Im Codebeispiel oben wird ab Zeile 13 in einer Schleife Schritt für Schritt der Wert jedes Tokens ausgegeben. Wir können auf den Wert (oder den Text) des Tokens über token.text zugreifen. Die Ausgabe sieht für das Beispiel wie folgt aus:

I
am
looking
forward
to
learning
about
NLP
with
spaCy
!

Weil es sich bei dem Doc-Objekt prinzipiell um eine Liste von Tokens handelt, können wir auch mit der gewohnten Zugriffsmethode für Arrays auf jedes einzelne Token zugreifen:

print(doc[2])
# Ausgabe: looking

Links

Klickt auf den Link, um mehr über den Tokenizer von spaCy zu erfahren:

PreviousDie NLP PipelineNextPart-of-Speech (POS)

Last updated 4 years ago

Was this helpful?

spaCy 101: Everything you need to know · spaCy Usage DocumentationspaCy 101: Everything you need to know
Logo