讓我們假設我有一個分類數據列「紅」「綠」「藍」和空單元格替換缺失值在分類數據
red
green
red
blue
NaN
我敢肯定,NaN的屬於紅,綠,藍,我應該用顏色的平均值替換NaN還是假設太強?這將是
col1 | col2 | col3
1 0 0
0 1 0
1 0 0
0 0 1
0.5 0.25 0.25
甚至縮放最後一行,但保持比例,所以這些值有較小的影響?通常最佳做法是什麼?
0.25 0.125 0.125
謝謝您的回答。基本上我沒有具體的目標,這是一個崗位理學碩士課程的問題。我有一個數據集,並且必須解釋在這種情況下哪個是最好的方法 – disable0
如果沒有特定的目標,我根本不會改變數據集。可能有一個很好的理由,爲什麼缺少某些值。所以你最終會通過改變它從數據中提取信息。 保持汽車的榜樣:如果某人不擁有汽車,該怎麼辦?當然,它沒有顏色導致缺失值。用一些價值取代它會導致錯誤的結果(這裏:假設傢伙有車)。 缺少值並不一定意味着缺少信息。 – lnathan