我使用Weka的樸素貝葉斯做文本分類。我有兩個句子,分別是「積極」和「消極」。我收集了大約207個有正面意義的句子和189個負面意思的句子,以創建我的訓練集。良好的性能僅適用於一類樸素貝葉斯
當我用一個含有強烈否定意義的句子(如「仇恨」一詞)的測試集運行樸素貝葉斯時,結果的準確性相當不錯,大約爲88%。但是,當我使用具有積極意義的句子,如「愛」這個詞作爲一個測試集時,準確度要差很多,大約爲56%。
我認爲這種差異可能與我的訓練集,尤其是它的「積極」句子有關。
你能想出任何可以解釋這種差異的原因嗎?或者,也許可以幫助我找出問題的起點?
非常感謝您的時間,
Nantia
你嘗試使用交叉驗證?你的情況似乎只是一個巧合。 – berkay