Part-of-Speech (POS)
Ein Token hält neben dem reinen Text noch weitere Informationen für uns bereit, wenn zusätzlich auch der parser ausgeführt wurde (was standardmäßig der Fall ist). Dazu gehören die sogenannten Part-of-Speech (POS) Informationen. Diese geben an, welche Rolle ein Token (oder Wort) in dem Text spielt. Also ob es sich um ein Verb, Adjektiv, Nomen oder vielleicht eine Zahl oder ein Satzzeichen handelt. Auf diese Information können wir wie folgt zugreifen:
Die Ausgabe ist folgende:
Wie ihr seht, enthält das pos_
Attribut Abkürzungen für die Art des Tokens, den spaCy erkannt hat. Hier die wichtigsten davon:
Abkürzung
Bedeutung
ADJ
Adjektiv
ADV
Adverb
AUX
Hilfsverb
NOUN
Nomen
PRON
Pronomen
PUNCT
Satzzeichen
VERB
Verb
Eine umfassende Liste mit den verwendeten Tags und Kürzeln erhaltet ihr hier:
Ihr könnt auch spaCy selbst bitten, eine bestimmte Abkürzung zu erklären:
Last updated
Was this helpful?