2012-07-13 41 views
0

我想從文本中提取相關術語,我想選擇最相關的術語。什麼NLTK技術爲標籤雲提取術語

How to config nltk data -> how, to, config ignored 
config mysql to scan -> config NOT ingored 
Python NLTK usage -> usage ingored 
new song by the band usage -> usage NOT ingored 
NLTK Thinks that -> thinks ignored 
critical thinking -> thinking NOT ignored 

我能想到的只有這個粗略的方法:

>>> text = nltk.word_tokenize(input) 
>>> nltk.pos_tag(text) 

,並只保存名詞和動詞。但即使「思考」和「思考」都是動詞,我只想保留「思考」。也「合併」「合併」。如果可以的話,我也想提取短語。另外像「free2play」,「@pro_blogger」等


方面請提出一個更好的方案或如何真正使我的方案的工作。

回答

0

所有你需要的是一個更好的pos標記。這是一個衆所周知的NLTK問題,核心POS標記器對生產使用效率不高。也許你想嘗試別的東西。比較你在pos標記的結果 - http://nlp.stanford.edu:8080/parser/。這是我找到的最準確的POS標籤(我知道我很快就會被證明是錯誤的)。一旦你在這個標記器中解析你的數據,你將會自動地意識到你想要的東西。

我建議你專注於正確標記。

檢查詞性標註舉例: 標記 關鍵/ JJ 思維/ NN

來源:我也有NLTK POS惡搞這些天努力:)