低頻術語 - 樸素貝葉斯提高準確性

我有成千上萬的因素（分類變量），我正在應用樸素貝葉斯分類。低頻術語 - 樸素貝葉斯提高準確性

我的問題是，我有很多因素在我的數據集中出現很少次，所以它似乎降低了我的預測的性能。

事實上，我注意到，如果我刪除了很少發生的分類變量，我的準確性有了顯着的提高。但理想情況下，我想保留所有因素，你知道最佳做法是什麼嗎？

非常感謝。

這太長了評論。

由於沒有足夠的數據來進行準確的預測，因此最低頻率項可能會對準確性產生不利影響。因此，訓練集中的觀察結果可能對驗證集沒有提及。

您可以將所有最低頻率的觀測值合併爲一個值。副手，我不知道什麼是正確的門檻。你可以先把所有發生的次數都小於5次，然後把它們放在一起。

2017-06-05 19:48:33

嗨戈登，謝謝你的回覆。這就是我所做的，通過刪除出現少於50次的任何條款（對於最高頻率條款，它們出現超過400次）。通過這樣做，我的準確率達到了80％。但我的問題是，我需要包括我認爲的小術語。如果我這樣做，它會下降到20/30％的準確性，這不值得... –

@ML_Enthousiast。。。 50的門檻可能太高。結果的強勁下降表明瞭罕見術語之間的相關性。 80％可能相當不錯。 –

但是在這種情況下，如果我想保留所有條款，即使是那些不經常出現的條款，最佳做法是什麼？ –

回答