我想要帶這個標籤文本(如此格式化)並找到每個句子中pos-tag DT的平均頻率。恩。 DT在句子1中出現1/3字,在句子2中出現1/3字。然後我想把這些加起來除以文本中的句子數(本例中爲2)。這會給我每句話DT的平均外觀。平均POS標籤頻率
from collections import Counter
import nltk
tagged_text = [('A', 'DT'), ('hairy', 'NNS'), ('dog', 'NN')]
[('The', 'DT'), ('mischevious', 'NNS'), ('elephant', 'NN')]
for eachSentence in tagged_text:
Counter(tag for word,tag in tagged)/len(eachsentence.split())
total = sum(counts.values())
float(average) = sum(counts.values())/len(tagged_text.sents())
print(float(average))
對我來說,最大的問題是eachSentence一部分我不的不如何解決(我不知道如何界定它是什麼)。我希望此代碼能夠應用於數百個具有相同格式的句子。我知道代碼有很多問題,所以如果有人能糾正它們,我會非常感激。
我不知道我明白你在問什麼。你想知道如何將數百個句子分配給變量'eachSentence'嗎? – oschlueter