2017-04-26 27 views
0

所以這可能是一個業餘愛好者的問題,但有沒有辦法使用nltk從文本(或列表中的同義詞)刪除同義詞?
通過同義詞我也意味着有不同的寫法一樣同樣的話:
70年代和70年代和70_s
或狗和獵犬
我真的很感激一些一般性的指導線或指向我的教程(我無法找到任何) 。
在此先感謝從文本中刪除同義詞使用nltk

+2

1 - 要獲取同義詞,請使用wordnet.synsets獲取同義詞集。 2 - 爲了得到不同的文字,清理數據(刪除標點符號和詞幹。當你幹,運行和運行都將轉換爲運行) – lordingtar

+0

我會嘗試。謝謝 –

+1

在你的問題中,你有兩個非常不同和不相關的任務;你是否還試圖將「上週日」和「2017/4/23」作爲同一日期?如果你說明了你想達到的目標,這將大有幫助。 另外,關於@lordingtar答案,應該警告一個詞可以在多個Wordnet sysnsets中,即使在你已經確定了它的詞性之後,例如,檢查名詞「pen」(這個問題被稱爲詞義消歧) 。 –

回答

0

我設法刪除重複的項目使用wordnet.synsets獲取同義詞,然後只是遍歷列表中刪除重複。我確信有更復雜的方法比遍歷列表,但它對我來說工作得很好。