什麼NLTK技術爲標籤雲提取術語

我想從文本中提取相關術語，我想選擇最相關的術語。什麼NLTK技術爲標籤雲提取術語

How to config nltk data -> how, to, config ignored 
config mysql to scan -> config NOT ingored 
Python NLTK usage -> usage ingored 
new song by the band usage -> usage NOT ingored 
NLTK Thinks that -> thinks ignored 
critical thinking -> thinking NOT ignored

我能想到的只有這個粗略的方法：

>>> text = nltk.word_tokenize(input) 
>>> nltk.pos_tag(text)

，並只保存名詞和動詞。但即使「思考」和「思考」都是動詞，我只想保留「思考」。也「合併」「合併」。如果可以的話，我也想提取短語。另外像「free2play」，「@pro_blogger」等

方面請提出一個更好的方案或如何真正使我的方案的工作。

來源

2012-07-13 aitchnyu

所有你需要的是一個更好的pos標記。這是一個衆所周知的NLTK問題，核心POS標記器對生產使用效率不高。也許你想嘗試別的東西。比較你在pos標記的結果 - http://nlp.stanford.edu:8080/parser/。這是我找到的最準確的POS標籤（我知道我很快就會被證明是錯誤的）。一旦你在這個標記器中解析你的數據，你將會自動地意識到你想要的東西。

我建議你專注於正確標記。

檢查詞性標註舉例：標記關鍵/ JJ 思維/ NN

來源：我也有NLTK POS惡搞這些天努力:)

。

來源

2013-04-10 12:00:50 akshayb

什麼NLTK技術爲標籤雲提取術語

回答

相關問題