1

我有這種類型的數據集。如何使用具有不同特徵維度的數據集來訓練sklearn分類器?

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal 
------------------------------------------------------------------ 
    Bread  | Butter  |  -  |  -  | buttered bread 
    Avocado | Tomato  |  Garlic |  -  | Guacamloe 

我想訓練sklearn決策樹分類器,但我不知道如何處理我的數據集的變化特徵維度。理想情況下,我希望空單元格被忽略。我想用nan's取代空單元格,但sklearn不接受nan的單元格。有沒有像sklearn這樣使用數據集的方法?

+0

我相信你可以爲此使用稀疏矩陣 – mkaran

回答

1

你應該編碼數據作爲矢量像這樣:

(Avocado, Bread, Butter, Garlic, Tomato) 
(0,1,1,0,0) = 'Buttered Bread' 
(1,0,0,1,1) = 'Guacamloe' 

向量中的每個元素表示一個特定的成分的存在。您可以將此格式的數據直接送入任何分類器,並且您不會遇到隱式排序問題。

相關問題