2013-12-23 18 views
4

我正在使用WordNet,通過Python的NLTK訪問來比較來自社交媒體的單詞的同義詞。這些單詞中有許多不在NLTK連接的WordNet版本中。將單詞添加到WordNet的本地副本

當我說我單詞我的意思是領域特定的術語,而不是縮寫或表情符號。

我編譯了這些單詞的列表,並希望將該列表與WordNet合併。

尋找先前的努力發現嘗試開發自動更新WordNet的方法。

我想象的步驟是:

  1. 克隆共發現DB
  2. 寫共發現模塊,查找本地副本
  3. 更新本地副本的延伸。

這聽起來有多合理?

+0

什麼「功能」你需要從wordnet?你只需要上位詞或下位詞或ID? – alvas

+0

我想計算路徑相似性,所以我需要上位詞和下位詞。 – mac389

+1

查看http://nltk.googlecode.com/svn-/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader。首先找出你的nltk_data目錄保存在哪裏,'nltk.corpus.wordnet.root'。然後進入該目錄並查看文件結構如何,並將新的synset附加到結構中。它看起來相當複雜,雖然=( – alvas

回答

1

我還沒有改變WordNet,但我有與Multilingual Central Repository一起工作的良好經驗,我相信你應該能夠做到你想用的東西。

它包含WordNet 3.0的多種語言(包括英語)的數據文件,這些語言通過所謂的跨語言索引(ILI)相互關聯。這些數據文件可以加載到MySQL或PostgreSQL數據庫表中,從這個角度來看,它不僅可以使用SQL命令查詢它,而且可以插入新的項目,維護表之間的對應關係。您當然也可以導出已更改的數據庫,例如轉換爲CSV文件,如果使用SQL不足以達到您的目的。