Python：將NLTK Stanford POS標籤映射到WordNet POS標籤

我正在閱讀一系列句子，並使用NLTK的斯坦福POS機標籤標記每個單詞。我得到像這樣的輸出：Python：將NLTK Stanford POS標籤映射到WordNet POS標籤

wordnet_sense = [] 

for o in output: 
    a = st.tag(o) 
    wordnet_sense.append(a)

輸出：[[(u'feel', u'VB'), (u'great', u'JJ')], [(u'good', u'JJ')]]

我想這些話與他們的POS映射，使它們在WordNet的認可。

我已經嘗試這樣的：

sense = [] 

for i in wordnet_sense: 
    tmp = [] 

    for tok, pos in i: 
     lower_pos = pos[0].lower() 

     if lower_pos in ['a', 'n', 'v', 'r', 's']: 
      res = wn.synsets(tok, lower_pos) 
      if len(res) > 0: 
       a = res[0] 
     else: 
      a = "[{0}, {1}]".format(tok, pos) 

     tmp.append(a) 

    sense.append(tmp) 

print sense

輸出：[Synset('feel.v.01'), '[great, JJ]'], ['[good, JJ]']]

所以feel是公認的動詞，但是great和good不會被識別爲形容詞。我還檢查了great和good是否屬於Wordnet，因爲我認爲如果他們不在那裏，他們沒有被映射，但他們是。誰能幫忙？

來源

2016-02-17 user47467

這裏是一個可愛的功能從pywsd：

from nltk.corpus import wordnet as wn 

def penn2morphy(penntag, returnNone=False): 
    morphy_tag = {'NN':wn.NOUN, 'JJ':wn.ADJ, 
        'VB':wn.VERB, 'RB':wn.ADV} 
    try: 
     return morphy_tag[penntag[:2]] 
    except: 
     return None if returnNone else ''

來源

2016-02-17 18:51:13 alvas

另請參閱：https：//www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html – alvas

def wordnet_pos_code(tag): 
    if tag.startswith('NN'): 
     return wn.NOUN 
    elif tag.startswith('VB'): 
     return wn.VERB 
    elif tag.startswith('JJ'): 
     return wn.ADJ 
    elif tag.startswith('RB'): 
     return wn.ADV 
    else: 
     return '' 



print wordnet_pos_code('NN')`

以及所提供的答案，我發現這一點，也適用。

來源

2016-02-19 10:24:04 user47467

Python：將NLTK Stanford POS標籤映射到WordNet POS標籤

回答

相關問題