如何使用具有不同特徵維度的數據集來訓練sklearn分類器？

我有這種類型的數據集。如何使用具有不同特徵維度的數據集來訓練sklearn分類器？

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal 
------------------------------------------------------------------ 
    Bread  | Butter  |  -  |  -  | buttered bread 
    Avocado | Tomato  |  Garlic |  -  | Guacamloe

我想訓練sklearn決策樹分類器，但我不知道如何處理我的數據集的變化特徵維度。理想情況下，我希望空單元格被忽略。我想用nan's取代空單元格，但sklearn不接受nan的單元格。有沒有像sklearn這樣使用數據集的方法？

來源

2017-06-16 SPA

我相信你可以爲此使用稀疏矩陣 – mkaran

你應該編碼數據作爲矢量像這樣：

(Avocado, Bread, Butter, Garlic, Tomato) 
(0,1,1,0,0) = 'Buttered Bread' 
(1,0,0,1,1) = 'Guacamloe'

向量中的每個元素表示一個特定的成分的存在。您可以將此格式的數據直接送入任何分類器，並且您不會遇到隱式排序問題。

來源

2017-06-16 15:15:55

如何使用具有不同特徵維度的數據集來訓練sklearn分類器？

回答

相關問題