2013-02-25 76 views
1

用於羣集分類數據的機器學習算法最合適的家族是什麼?假設我們有以下數據集:如何聚類分類變量?

V1  V2  V3  V4 
"v1a"  "v2b"  "v3b"  "v4c" 
"v1b"  "v2f"  "v3a"  "v4c" 
"v1a"  "v2e"  "v3b"  "v4c" 

有什麼方法可以以某種方式對它們進行聚類嗎?我特別感興趣的是通過Apache Mahout來做到這一點。任何暗示\想法是高度讚賞。

回答

0

,你需要回答第一的問題是:

什麼是集羣?

顯然,許多現有的集羣定義(通過歐幾里得距離小於epsilon的步驟連接)等將不會有用。

有一些技巧可以將這些數據進行向量化,以便您仍然可以在其上運行k-means。

但更多的,往往不是其結果將是無用,因爲人們並不認爲他們在做什麼第一

因此,首先嚐試找出你想要做的事情,然後尋找工具來做到這一點。

+0

非常感謝您的回答。我可以請你給我多一點提示嗎?哪一種算法可以很好地解決這個問題?只需猜測! :D那些基於貝葉斯定理的那些呢? – user706838 2013-02-28 11:40:44

+0

貝葉斯定理對你的數據有什麼意義? 我不知道你的數據,我不能告訴你什麼對你有意義。 – 2013-02-28 11:50:32