處理迴歸（機器學習）中的分類特徵的未分配（空）值？

我想做線性迴歸分析。我有多個功能。某些功能對數據中的某些項目具有未分配（空）值。對於序數特徵（例如「年份」或「房間數量」），我可以使用平均值插補並用數據的平均值替換所有的空值。但如何處理分類功能（例如顏色或區域）？更清楚，我提供例如：處理迴歸（機器學習）中的分類特徵的未分配（空）值？

有分類型的幾個特點：

Color, material, security, type, district

如何在推諉類別特徵空值沒有太多複雜的估算方法？我被建議只保留「空」本身作爲一個單獨的數據變體。因此，例如在「區域」欄中，「空」將成爲新的「區域」。對所有類型的特徵使用這種簡單的插補是合理的，還是可能更簡單或更好的插補方法？

2015-12-04 Chichi

是的，你可以使用NULL作爲分類變量的新層次。如果您只需要分類變量的簡單插補方法，則還可以嘗試使用該變量的最常見級別（值）進行插值，或者對該數據集合理的一些簡單規則進行插值。

2015-12-04 20:02:59 Jonas

回答