美好的一天, 我試圖在python(使用樸素貝葉斯分類器)中編寫一個感性分析應用程序,旨在將新聞中的短語分類爲正面或負面。 我找到適當的語料庫有點麻煩。 我嘗試使用「一般詢問者」(http://www.wjh.harvard.edu/~inquirer/homecat.htm),它工作正常,但我有一個大問題。 既然是一個單詞列表,而不是一個短語列表試圖標記下面這句話時,我注意以下問題:用於感性分析的短語語料庫
他預計不會贏。
這句話被歸類爲正面,這是錯誤的。原因是「贏」是正面的,但「不」沒有任何意義,因爲「不贏」是一個短語。 任何人都可以爲該問題建議一個語料庫或工作? 您的幫助和見解非常受歡迎。
作爲一個方面說明:你預計樸素貝葉斯在這裏工作?假設我們所有的功能都是「贏」,「輸」和「不」,而「贏」和「輸」等比例出現。然後,「贏」或「不贏」將被錯誤分類。 –
我相信這就是爲什麼他要問使用短語作爲功能。 – phs
我認爲他用詞作爲特徵來分類短語... –