2012-12-08 74 views
3

有沒有辦法顯示哪個字是填充詞在給定的文本中使用NLTK? 如果沒有人知道我在哪裏可以得到一個wordlist與英語填詞? 謝謝nltk pos標記expletives

解決:從nltk.corpus進口停用詞

回答

3

NLTK本身並不提供這樣一份名單雖然很多都可以在網絡上的其他地方。

存在着相當數量的來源:網絡搜尋SEARCH_TERM_EXAMPLES與「褻瀆」生詞「badwords.txt」blacklists.txt將產生許多來源。

在我們公司的情況下,我們最終創建了自己的清單並根據需要添加到清單中。根據您的受衆,該列表必須進行調整和調整。

最後,即使這個SO question已關閉(關於php),我發現參考和討論非常有用。

更新:你想要的是一個列表停止詞語

  1. 嘗試:http://www.ranks.nl/resources/stopwords.html
  2. 停用詞MIT also maintains a list

希望有所幫助。

+0

顯然這個詞咒罵也代表壞詞,我的意思是不是壞詞,但**填詞**,有沒有辦法在哪裏獲得這樣的清單?還是NLTK提供它? – Mirko

+0

根據您的澄清更新了我的答案 –