-1

以我分類問題,一些功能(〜5)中85層的特徵具有大多空值(> 90%)。我如何處理這些值?難道我,我有一個分類項目,其中一些列/特徵的空值超過90%。我如何處理它們?

1)忽略這些列/功能完全

2)嘗試,如果是如何歸咎於這些值?

3)的任何其他方法?

我開始用隨機森林,我是一個新手,以這種方法,並隨機森林自行處理空值?我怎樣才能實現這個?隨機森林如何做到這一點?我在哪裏可以瞭解到這一點 - 任何參考將非常受歡迎。

在此先感謝。

+1

這是不是一個好問題的SO,因爲它一)是不是編程和b)的方式過於寬泛。我建議你自己嘗試一下(可以很容易地看到RF是否僅僅通過運行來處理空值),並且刪除這篇文章並在[交叉驗證]中提出一個更加重點突出的問題(https://stats.stackexchange .COM) – Tchotchke

回答

0

您是否嘗試過在你的數據集運行的神經網絡,即使功能缺失?神經網絡不需要所有的功能。

你可以簡單地將所有缺失的特性值0的神經網絡,如神經網絡看不到0feature is missing之間的差異。你爲什麼不問?如果將輸入值設置爲0,則意味着來自該輸入節點的所有連接將具有0值:沒有向連接到該輸入節點的隱藏神經元添加任何內容。

但你嘗試之前,問自己這樣一個問題:如果某些功能缺失經常是它的數據集預測任何重要?

相關問題