1

我想做線性迴歸分析。我有多個功能。某些功能對數據中的某些項目具有未分配(空)值。對於序數特徵(例如「年份」或「房間數量」),我可以使用平均值插補並用數據的平均值替換所有的空值。但如何處理分類功能(例如顏色或區域)? 更清楚,我提供例如:enter image description here處理迴歸(機器學習)中的分類特徵的未分配(空)值?

有分類型的幾個特點:

Color, material, security, type, district 

如何在推諉類別特徵空值沒有太多複雜的估算方法?我被建議只保留「空」本身作爲一個單獨的數據變體。因此,例如在「區域」欄中,「空」將成爲新的「區域」。對所有類型的特徵使用這種簡單的插補是合理的,還是可能更簡單或更好的插補方法?

回答

2

是的,你可以使用NULL作爲分類變量的新層次。如果您只需要分類變量的簡單插補方法,則還可以嘗試使用該變量的最常見級別(值)進行插值,或者對該數據集合理的一些簡單規則進行插值。