2011-06-26 48 views
11

我在自然語言處理方面沒有正式的背景知識,想知道是否有來自NLP方面的人可以對此有所瞭解。我玩與周圍的NLTK庫和我被專門找到由該包中提供的停用詞功能:這些詞爲什麼被認爲是停用詞?

在[80]: nltk.corpus.stopwords.words(「英語」)

[80]:

['i','me','my', '我','我們','我們','我們', '我們','你','你的', '你','你自己','你自己', '他','他','他','他自己', '她','她','她','hersel' f', 'it','its','itself','they', 'they','他們','他們', '自己','what','which',' 'who' ,'who','this','that', '這些','那些','是','是', '是','是','是','是', ' ','是','具有','具有', '有','有','做','是', '做過','做','a','an',' ','','',''和','但'''如果','或',' '','''''','''' '''','''','','','','','','','','''','''','''','''','''','''','''','''' ,'to','from','up' , 'down','in','out','on','off', 'over','under','again', 'further','then','once','here ',' 'there','when','where','why', 'how','all','any','both','大多數', 'other','some','such','no', '也','不','只','擁有', 'same','so','than', '太', '非常', 'S', 'T', '可以', '將', '只是', '不要', '應該', '現在']

我不明白的是,爲什麼「不」存在?這對判斷句子中的情緒不是必要的嗎?例如,像這樣的一句話:

我不確定問題出在哪裏。

一旦停止字not除去改變句子的含義,其相對的(I am sure what the problem is)是完全不同的。如果是這種情況,是否有一套我不知道何時不使用這些停用詞的規則?

+1

情感分析需要不同的方法來比,也就是說,文檔分類等核心NLP任務preprocesing。例如,在文檔分類中,儘早放棄標點符號,而在情感分析中,包括功能集中的「!」和「?」可能會改善您的結果。 –

回答

16

停止詞列表的概念沒有普遍意義,取決於您想要做什麼。如果您有任務需要了解短語的極性,情緒或類似特徵,並且如果您的方法取決於檢測否定(如您的示例中所示),顯然,您不應該將「不」作爲停用詞(請注意,您可能仍然希望刪除其他非常常見的不相關字詞,這些字詞將構成您的新停用詞列表)。

但是,要回答您的問題,大多數情感分析方法都很膚淺。他們尋找充滿情感/情緒的話語,並且 - 大部分時間 - 他們不試圖深入分析這個句子。

作爲另一個您希望保留停用詞的例子:如果您試圖根據作者(作者屬性歸屬)對文檔進行分類或者進行測版,則應該在保留這些功能性詞語風格和話語的很大一部分。然而,對於許多其他類型的分析(例如詞空間模型,文檔相似性,搜索等),刪除非常常見的功能詞在計算上都是有意義的(您處理較少的詞),並且在某些情況下實際上(您可能即使取消停用詞,也可以獲得更好的結果)。如果我想了解其中的特定詞的使用非常頻繁的情況下,我想看到的內容,而不是功能話。

+1

+1這是一個很好的答案。謝謝。我正在做一些情感分析,你說的話對我來說很合理。感謝您的時間。 – Legend

+1

不客氣。我不是很熟悉的句子/短語級別的情感分析,但如果這就是你想要這可能是一個出發點是什麼:http://www.mitpressjournals.org/doi/pdf/10.1162/coli.08-012- R1-06-90 –

+0

剛剛發佈了另外一個問題在這裏:http://stackoverflow.com/questions/6482152/extracting-meaning-out-of-sentences萬一你有關於這個問題一些額外的想法:)再次感謝您。 – Legend

相關問題