0
什麼是一些經過驗證的方法,用於在大型高維二進制數據集(想想200,000多行和150多個字段)內找到可以在R中輕鬆實現的高度相關變量的分組?我想找到適合解釋的變量組合,所以我不認爲PCA會是最好的方法。聚類變量
什麼是一些經過驗證的方法,用於在大型高維二進制數據集(想想200,000多行和150多個字段)內找到可以在R中輕鬆實現的高度相關變量的分組?我想找到適合解釋的變量組合,所以我不認爲PCA會是最好的方法。聚類變量
library(Hmisc)
mtc <- mtcars[,2:8]
mtcn <- data.matrix(mtc)
clust <- varclus(mtcn)
clust
plot(clust)
?varclus :
上是否變量聚類分析,使用Hoeffding d統計量,平方皮爾遜或Spearman相關,或觀察爲兩個變量都爲正作爲相似性度量的比例。可變聚類用於評估共線性,冗餘度以及將變量分爲可以作爲單個變量評分的聚類,從而減少數據量。
二進制Vraibles:
library(cluster)
data(animals)
ma <- mona(animals)
ma
plot(ma)
?mona :
返回表示只有二元變量數據集的分裂層次聚類的列表。