2014-02-10 63 views
0

我已經應用了一些聚類方法(k-means)將實例(示例)重新分組爲類別。 我正面臨降維問題,其中我有幾個實例(100)和許多變量(1000萬)。我認爲其中一些變量具有「類似的行爲」,我想重新組合它們。是否有可能對變量進行聚類?如果不是,爲什麼不呢?變量聚類

+0

你什麼意思是由類似的行爲? – Leo

+0

也許你可以檢查是否有變量改變了集羣。如果你刪除了一些變量並且結果相同,也許你可以使用這個變量子集 – Leo

+0

@Leo我的意思是我認爲變量是相關的。他們經常採取零值爲相同的實例 – bigTree

回答

3

你的意思是說varialbes(feature)中可能存在相關性,所以應該有一些方法來減少特徵維度。通常特徵尺寸不是通過重新組合,PCA或SVD應用。

+0

因此,集羣變量不會工作,你認爲? – bigTree

+0

可能不是。我同意PCA是一種(好)的方式 – Leo

+0

@bigTree你可以試試看,選擇參數K可能是一個問題,它可能不會收斂,用PCA做這個很方便,特徵值方面新特徵代表了新特徵的重要性,因此選擇維數很方便(當數據分佈正常時,PCA通常是一個很好的選擇) – michaeltang