2012-05-28 23 views
5

美好的一天, 我試圖在python(使用樸素貝葉斯分類器)中編寫一個感性分析應用程序,旨在將新聞中的短語分類爲正面或負面。 我找到適當的語料庫有點麻煩。 我嘗試使用「一般詢問者」(http://www.wjh.harvard.edu/~inquirer/homecat.htm),它工作正常,但我有一個大問題。 既然是一個單詞列表,而不是一個短語列表試圖標記下面這句話時,我注意以下問題:用於感性分析的短語語料庫

他預計不會贏。

這句話被歸類爲正面,這是錯誤的。原因是「贏」是正面的,但「不」沒有任何意義,因爲「不贏」是一個短語。 任何人都可以爲該問題建議一個語料庫或工作? 您的幫助和見解非常受歡迎。

+0

作爲一個方面說明:你預計樸素貝葉斯在這裏工作?假設我們所有的功能都是「贏」,「輸」和「不」,而「贏」和「輸」等比例出現。然後,「贏」或「不贏」將被錯誤分類。 –

+0

我相信這就是爲什麼他要問使用短語作爲功能。 – phs

+0

我認爲他用詞作爲特徵來分類短語... –

回答

3

在這種情況下,工作修改expecteed贏得,扭轉它短語的意義。爲了確定這一點,你需要POS標籤句子,並將否定副詞而不是應用於(我認爲)動詞短語作爲否定。但是,我不知道是否有一個語料庫會告訴你,不會是這種類型的修飾符。

+1

我喜歡你在結尾附近使用「不」的單詞。祝你好運,我們所有的算法找出什麼是否定! :-) –