PlWordNet 3.0版帶有兩個.xml
文件。第一個文件是plwordnet-3.0.xml
(位於Princeton WordNet format
),第二個文件是plwordnet-3.0-visdisc.xml
(位於VizDic format
)。這個項目的自述文件似乎有些模糊,因爲建議的將數據加載到NLTK的方式不起作用。 PlWordNet可從官方project site下載。如何將plwordnet(Słowosieć)3.0加載到NLTK中
我想加載這個wordnet到NLTK,所以我可以遍歷synsets。我已經嘗試了兩種方式,但他們都不起作用。
a)將xml文件複製到(...)\nltk_data\corpora\omw\pol
和(...)\nltk_data\corpora\wordnet
。使用XMLCorpusReader從NLTK包(如在How to use the Spanish Wordnet in NLTK?描述)來加載xml文件
from nltk.corpus import wordnet as wn
wn.synsets('Politechnika')
不幸返回空列表
B):代碼來測試結果。代碼來測試:
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader(dir, 'plwordnet-3.0.xml')
但是當我運行reader.words()
,它只返回ID列表(Unicode對象,僅代表數字)。此外,我沒有看到獲取synsets之間關係的方法。
以前任何人使用普林斯頓Wordnet 3.1或PlWordNet(Słowosieć)3.0?
我設法使用python的xml.etree
手動獲取synsets及其描述列表,但我不知道如何獲得之間的關係。
謝謝!
你寫了嗎?任何提示? –