如何將plwordnet（Słowosieć）3.0加載到NLTK中

PlWordNet 3.0版帶有兩個.xml文件。第一個文件是plwordnet-3.0.xml（位於Princeton WordNet format），第二個文件是plwordnet-3.0-visdisc.xml（位於VizDic format）。這個項目的自述文件似乎有些模糊，因爲建議的將數據加載到NLTK的方式不起作用。 PlWordNet可從官方project site下載。如何將plwordnet（Słowosieć）3.0加載到NLTK中

我想加載這個wordnet到NLTK，所以我可以遍歷synsets。我已經嘗試了兩種方式，但他們都不起作用。

a）將xml文件複製到(...)\nltk_data\corpora\omw\pol和(...)\nltk_data\corpora\wordnet。使用XMLCorpusReader從NLTK包（如在How to use the Spanish Wordnet in NLTK?描述）來加載xml文件

from nltk.corpus import wordnet as wn 
wn.synsets('Politechnika')

不幸返回空列表

B）：代碼來測試結果。代碼來測試：

from nltk.corpus.reader import XMLCorpusReader reader = XMLCorpusReader(dir, 'plwordnet-3.0.xml')

但是當我運行reader.words()，它只返回ID列表（Unicode對象，僅代表數字）。此外，我沒有看到獲取synsets之間關係的方法。

以前任何人使用普林斯頓Wordnet 3.1或PlWordNet（Słowosieć）3.0？

我設法使用python的xml.etree手動獲取synsets及其描述列表，但我不知道如何獲得之間的關係。

謝謝！

來源

2016-07-05 oski86

-1

PlWordNet 3.0不再支持NLTK。

我會寫我自己的解析器。

來源

2016-07-07 09:32:15 oski86

你寫了嗎？任何提示？ –

如何將plwordnet（Słowosieć）3.0加載到NLTK中

回答

相關問題