2016-07-05 45 views
1

PlWordNet 3.0版帶有兩個.xml文件。第一個文件是plwordnet-3.0.xml(位於Princeton WordNet format),第二個文件是plwordnet-3.0-visdisc.xml(位於VizDic format)。這個項目的自述文件似乎有些模糊,因爲建議的將數據加載到NLTK的方式不起作用。 PlWordNet可從官方project site下載。如何將plwordnet(Słowosieć)3.0加載到NLTK中

我想加載這個wordnet到NLTK,所以我可以遍歷synsets。我已經嘗試了兩種方式,但他們都不起作用。

a)將xml文件複製到(...)\nltk_data\corpora\omw\pol(...)\nltk_data\corpora\wordnet。使用XMLCorpusReader從NLTK包(如在How to use the Spanish Wordnet in NLTK?描述)來加載xml文件

from nltk.corpus import wordnet as wn 
wn.synsets('Politechnika') 

不幸返回空列表

B):代碼來測試結果。代碼來測試:

from nltk.corpus.reader import XMLCorpusReader 
reader = XMLCorpusReader(dir, 'plwordnet-3.0.xml') 

但是當我運行reader.words(),它只返回ID列表(Unicode對象,僅代表數字)。此外,我沒有看到獲取synsets之間關係的方法。

以前任何人使用普林斯頓Wordnet 3.1或PlWordNet(Słowosieć)3.0?

我設法使用python的xml.etree手動獲取synsets及其描述列表,但我不知道如何獲得之間的關係。

謝謝!

回答

-1

PlWordNet 3.0不再支持NLTK。

我會寫我自己的解析器。

+0

你寫了嗎?任何提示? –