4
我正在使用WordNet,通過Python的NLTK訪問來比較來自社交媒體的單詞的同義詞。這些單詞中有許多不在NLTK連接的WordNet版本中。將單詞添加到WordNet的本地副本
當我說我單詞我的意思是領域特定的術語,而不是縮寫或表情符號。
我編譯了這些單詞的列表,並希望將該列表與WordNet合併。
尋找先前的努力發現嘗試開發自動更新WordNet的方法。
我想象的步驟是:
- 克隆共發現DB
- 寫共發現模塊,查找本地副本
- 更新本地副本的延伸。
這聽起來有多合理?
什麼「功能」你需要從wordnet?你只需要上位詞或下位詞或ID? – alvas
我想計算路徑相似性,所以我需要上位詞和下位詞。 – mac389
查看http://nltk.googlecode.com/svn-/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader。首先找出你的nltk_data目錄保存在哪裏,'nltk.corpus.wordnet.root'。然後進入該目錄並查看文件結構如何,並將新的synset附加到結構中。它看起來相當複雜,雖然=( – alvas