2014-01-29 52 views
0

什麼是一些經過驗證的方法,用於在大型高維二進制數據集(想想200,000多行和150多個字段)內找到可以在R中輕鬆實現的高度相關變量的分組?我想找到適合解釋的變量組合,所以我不認爲PCA會是最好的方法。聚類變量

回答

1
library(Hmisc) 
mtc <- mtcars[,2:8] 
    mtcn <- data.matrix(mtc) 
    clust <- varclus(mtcn) 
    clust 
    plot(clust) 

?varclus :上是否變量聚類分析,使用Hoeffding d統計量,平方皮爾遜或Spearman相關,或觀察爲兩個變量都爲正作爲相似性度量的比例。可變聚類用於評估共線性,冗餘度以及將變量分爲可以作爲單個變量評分的聚類,從而減少數據量。

二進制Vraibles:

library(cluster) 
data(animals) 
ma <- mona(animals) 
ma 

plot(ma) 

?mona :返回表示只有二元變量數據集的分裂層次聚類的列表。