Tokenize
spaCy führt beim Anwenden der nlp()
Funktion unterschiedliche Operationen auf dem übergebenen Text in einer bestimmten Reihenfolge aus. Der erste Schritt ist der tokenizer. Das Wort tokenize bedeutet so viel wie den Text in einzelne kleine Blöcke zu unterteilen. Damit sind zum einen die Wörter gemeint, aber auch Satzzeichen oder Zahlen können ein Token sein. Die Trennung erfolgt normalerweise anhand des Trennzeichens, was im Standard das Leerzeichen ist. Es gibt aber auch Ausnahmen, die als Regeln in spaCy hinterlegt sind. Z. B. wird das Wort "don't" im Englischen ebenfalls in 2 Tokens getrennt: "do" und "'t".
Das Ergebnis des tokenizers liegt nach Ausführen der nlp()
Funktion im Ergebnisobjekt doc
vor:
Im Codebeispiel oben wird ab Zeile 13 in einer Schleife Schritt für Schritt der Wert jedes Tokens ausgegeben. Wir können auf den Wert (oder den Text) des Tokens über token.text
zugreifen. Die Ausgabe sieht für das Beispiel wie folgt aus:
Weil es sich bei dem Doc-Objekt prinzipiell um eine Liste von Tokens handelt, können wir auch mit der gewohnten Zugriffsmethode für Arrays auf jedes einzelne Token zugreifen:
Links
Klickt auf den Link, um mehr über den Tokenizer von spaCy zu erfahren:
Last updated
Was this helpful?