2017-06-05 22 views
0

我有成千上萬的因素(分類變量),我正在應用樸素貝葉斯分類。低頻術語 - 樸素貝葉斯提高準確性

我的問題是,我有很多因素在我的數據集中出現很少次,所以它似乎降低了我的預測的性能。

事實上,我注意到,如果我刪除了很少發生的分類變量,我的準確性有了顯着的提高。但理想情況下,我想保留所有因素,你知道最佳做法是什麼嗎?

非常感謝。

回答

0

這太長了評論。

由於沒有足夠的數據來進行準確的預測,因此最低頻率項可能會對準確性產生不利影響。因此,訓練集中的觀察結果可能對驗證集沒有提及。

您可以將所有最低頻率的觀測值合併爲一個值。副手,我不知道什麼是正確的門檻。你可以先把所有發生的次數都小於5次,然後把它們放在一起。

+0

嗨戈登,謝謝你的回覆。這就是我所做的,通過刪除出現少於50次的任何條款(對於最高頻率條款,它們出現超過400次)。通過這樣做,我的準確率達到了80%。但我的問題是,我需要包括我認爲的小術語。如果我這樣做,它會下降到20/30%的準確性,這不值得... –

+0

@ML_Enthousiast。 。 。 50的門檻可能太高。結果的強勁下降表明瞭罕見術語之間的相關性。 80%可能相當不錯。 –

+0

但是在這種情況下,如果我想保留所有條款,即使是那些不經常出現的條款,最佳做法是什麼? –