聚類變量

什麼是一些經過驗證的方法，用於在大型高維二進制數據集（想想200,000多行和150多個字段）內找到可以在R中輕鬆實現的高度相關變量的分組？我想找到適合解釋的變量組合，所以我不認爲PCA會是最好的方法。聚類變量

2014-01-29 hot_whisky

library(Hmisc) 
mtc <- mtcars[,2:8] 
    mtcn <- data.matrix(mtc) 
    clust <- varclus(mtcn) 
    clust 
    plot(clust)

?varclus :上是否變量聚類分析，使用Hoeffding d統計量，平方皮爾遜或Spearman相關，或觀察爲兩個變量都爲正作爲相似性度量的比例。可變聚類用於評估共線性，冗餘度以及將變量分爲可以作爲單個變量評分的聚類，從而減少數據量。

二進制Vraibles：

library(cluster) 
data(animals) 
ma <- mona(animals) 
ma 

plot(ma)

?mona :返回表示只有二元變量數據集的分裂層次聚類的列表。

2014-01-29 12:59:48 RUser

回答