我在自然語言處理方面沒有正式的背景知識,想知道是否有來自NLP方面的人可以對此有所瞭解。我玩與周圍的NLTK庫和我被專門找到由該包中提供的停用詞功能:這些詞爲什麼被認爲是停用詞?
在[80]: nltk.corpus.stopwords.words(「英語」)
[80]:
['i','me','my', '我','我們','我們','我們', '我們','你','你的', '你','你自己','你自己', '他','他','他','他自己', '她','她','她','hersel' f', 'it','its','itself','they', 'they','他們','他們', '自己','what','which',' 'who' ,'who','this','that', '這些','那些','是','是', '是','是','是','是', ' ','是','具有','具有', '有','有','做','是', '做過','做','a','an',' ','','',''和','但'''如果','或',' '','''''','''' '''','''','','','','','','','','''','''','''','''','''','''','''','''' ,'to','from','up' , 'down','in','out','on','off', 'over','under','again', 'further','then','once','here ',' 'there','when','where','why', 'how','all','any','both','大多數', 'other','some','such','no', '也','不','只','擁有', 'same','so','than', '太', '非常', 'S', 'T', '可以', '將', '只是', '不要', '應該', '現在']
我不明白的是,爲什麼「不」存在?這對判斷句子中的情緒不是必要的嗎?例如,像這樣的一句話:
我不確定問題出在哪裏。
一旦停止字not
除去改變句子的含義,其相對的(I am sure what the problem is
)是完全不同的。如果是這種情況,是否有一套我不知道何時不使用這些停用詞的規則?
情感分析需要不同的方法來比,也就是說,文檔分類等核心NLP任務preprocesing。例如,在文檔分類中,儘早放棄標點符號,而在情感分析中,包括功能集中的「!」和「?」可能會改善您的結果。 –