2016-03-14 92 views
0

對於我的論文分配,我需要對包含來自零售商店(+1000維度)的購買數據的高維數據集執行聚類分析。由於傳統的聚類算法不適合高維(並且降維不是真正的選擇),因此我想嘗試爲高維數據(例如ProClus)專門開發的算法。R中的ProClus聚類分析

但是在這裏,我的問題開始了。 ProClusAlgorithm

我不知道我應該使用什麼值參數d。誰能幫我?

回答

0

這只是ProClus許多限制之一。

該參數是羣集的平均值維度。它假定在​​您的數據中有一個線性羣集。這可能不會適用於購買數據,但您可以嘗試。對於稀疏等數據購買,我寧願專注於頻繁項目集挖掘。

沒有通用聚類算法。任何聚類算法都會附帶您需要試驗的各種參數。

對於聚類分析,至關重要的是您可以以某種方式可視化或分析結果,以便能夠找出該方法是否工作以及如何進行。

+0

該作業特別要求將客戶集中在一起,而不是產品。你知道一個算法可以處理1000 +維稀疏矩陣嗎? – JaperTIA

+0

大量的算法可以處理它。更好的問題是:什麼是好的羣集,我如何找到它? - 這是一個你需要回答的問題。因爲我認爲ProClus羣集不適合客戶。但是,你可以*通過他們購買的頻繁項目集聚集客戶。您可以獲得具有相同購物行爲的客戶羣。 (請注意,客戶*可能屬於多個或不屬於這些羣集,而且這是*好的。) –