2016-06-08 38 views
1

我在哪裏可以找到停用詞的詳盡列表?我擁有的這本書很短,似乎不適用於科學文獻。 我正在創建詞彙鏈以從科學論文中提取關鍵主題。問題在於,像based,regarding等詞語也應該被視爲停用詞,因爲它們沒有太多意義。在哪裏可以找到停用詞的詳盡列表?

回答

1

您還可以輕鬆添加到現有的停止詞列表。例如。使用一個在NLTK工具箱:

from nltk.corpus import stopwords 

,然後添加任何你認爲丟失:描述here

stopwords = stopwords.words('english')+["based", "regarding"] 

原來NLTK列表。

1

很難找到停用詞的詳盡列表,因爲給定的詞可以被視爲給定域中的停用詞,但它是另一個域中的重要詞。

,你可以看看的停止詞的一些列表:

http://blog.adlegant.com/how-to-install-nltk-corporastopwords/

http://www.lextek.com/manuals/onix/stopwords1.html

http://www.ranks.nl/stopwords

http://xpo6.com/list-of-english-stop-words/

+0

也許在這種情況下,檢查某些域特定字典更重要? (我使用WordNet)...我是NLP的新手 – Klue

相關問題