2015-06-16 34 views
1

我是機器學習的新手,想了解使用什麼算法(Classification algorithm或co-relation algorithm?)來理解一個或多個屬性之間的關係。哪種激發MLIB算法使用?

例如考慮我具有以下屬性集,

Bill No, Bill Amount, Tip amount, Waiter Name 

和想弄清楚其是正在促進提示量屬性(一個或多個)。

以下是樣本數據集,

Bill No, Bill Amount, Tip amount, Waiter detail 
    1,   100,   10,  Sathish 
    2,   200,   20,  Sathish 
    3,   150,   10,  Rahul 
    4,   200,   10,  Simon 
    5,   100,   10,  Sathish 

在這種情況下,我們知道的提示量將由比爾金額99%的影響。但我想知道什麼是Spark MLib算法,我應該使用它來找出相同的問題?如果是這樣,我可以將類似的技術應用於長屬性集。

回答

2

你可以做的一件事是計算行之間的相關性。在mllib網站上查看關於的教程。

更先進的方法是使用dimensionality reduction。這應該會發現更復雜的依賴關係。