變量聚類

我已經應用了一些聚類方法（k-means）將實例（示例）重新分組爲類別。我正面臨降維問題，其中我有幾個實例（100）和許多變量（1000萬）。我認爲其中一些變量具有「類似的行爲」，我想重新組合它們。是否有可能對變量進行聚類？如果不是，爲什麼不呢？變量聚類

2014-02-10 bigTree

你什麼意思是由類似的行爲？ – Leo

也許你可以檢查是否有變量改變了集羣。如果你刪除了一些變量並且結果相同，也許你可以使用這個變量子集 – Leo

@Leo我的意思是我認爲變量是相關的。他們經常採取零值爲相同的實例 – bigTree

你的意思是說varialbes（feature）中可能存在相關性，所以應該有一些方法來減少特徵維度。通常特徵尺寸不是通過重新組合，PCA或SVD應用。

2014-02-11 01:47:55 michaeltang

因此，集羣變量不會工作，你認爲？ – bigTree

可能不是。我同意PCA是一種（好）的方式 – Leo

@bigTree你可以試試看，選擇參數K可能是一個問題，它可能不會收斂，用PCA做這個很方便，特徵值方面新特徵代表了新特徵的重要性，因此選擇維數很方便（當數據分佈正常時，PCA通常是一個很好的選擇） – michaeltang

回答