將單詞添加到WordNet的本地副本

我正在使用WordNet，通過Python的NLTK訪問來比較來自社交媒體的單詞的同義詞。這些單詞中有許多不在NLTK連接的WordNet版本中。將單詞添加到WordNet的本地副本

當我說我單詞我的意思是領域特定的術語，而不是縮寫或表情符號。

我編譯了這些單詞的列表，並希望將該列表與WordNet合併。

尋找先前的努力發現嘗試開發自動更新WordNet的方法。

我想象的步驟是：

克隆共發現DB
寫共發現模塊，查找本地副本
更新本地副本的延伸。

這聽起來有多合理？

來源

2013-12-23 mac389

什麼「功能」你需要從wordnet？你只需要上位詞或下位詞或ID？ – alvas

我想計算路徑相似性，所以我需要上位詞和下位詞。 – mac389

查看http://nltk.googlecode.com/svn-/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader。首先找出你的nltk_data目錄保存在哪裏，'nltk.corpus.wordnet.root'。然後進入該目錄並查看文件結構如何，並將新的synset附加到結構中。它看起來相當複雜，雖然=（ – alvas

我還沒有改變WordNet，但我有與Multilingual Central Repository一起工作的良好經驗，我相信你應該能夠做到你想用的東西。

它包含WordNet 3.0的多種語言（包括英語）的數據文件，這些語言通過所謂的跨語言索引（ILI）相互關聯。這些數據文件可以加載到MySQL或PostgreSQL數據庫表中，從這個角度來看，它不僅可以使用SQL命令查詢它，而且可以插入新的項目，維護表之間的對應關係。您當然也可以導出已更改的數據庫，例如轉換爲CSV文件，如果使用SQL不足以達到您的目的。

來源

2014-05-21 12:01:58

將單詞添加到WordNet的本地副本

回答

相關問題