如何聚類分類變量？

用於羣集分類數據的機器學習算法最合適的家族是什麼？假設我們有以下數據集：如何聚類分類變量？

V1  V2  V3  V4 
"v1a"  "v2b"  "v3b"  "v4c" 
"v1b"  "v2f"  "v3a"  "v4c" 
"v1a"  "v2e"  "v3b"  "v4c"

有什麼方法可以以某種方式對它們進行聚類嗎？我特別感興趣的是通過Apache Mahout來做到這一點。任何暗示\想法是高度讚賞。

2013-02-25 user706838

，你需要回答第一的問題是：

什麼是集羣？

顯然，許多現有的集羣定義（通過歐幾里得距離小於epsilon的步驟連接）等將不會有用。

有一些技巧可以將這些數據進行向量化，以便您仍然可以在其上運行k-means。

但更多的，往往不是其結果將是無用，因爲人們並不認爲他們在做什麼第一。

因此，首先嚐試找出你想要做的事情，然後尋找工具來做到這一點。

2013-02-25 15:25:17

非常感謝您的回答。我可以請你給我多一點提示嗎？哪一種算法可以很好地解決這個問題？只需猜測！：D那些基於貝葉斯定理的那些呢？ – user706838 2013-02-28 11:40:44

貝葉斯定理對你的數據有什麼意義？我不知道你的數據，我不能告訴你什麼對你有意義。 – 2013-02-28 11:50:32

回答