我想聚集一個數據集(600000個觀測值),並且對於每個我想要的主成分的聚類。 我的向量由一個電子郵件和30個定性變量組成。 每個定量變量有4類:0,1,2和3R,多重對應分析後發生分層聚類
我這樣做第一件事就是加載庫FactoMineR並加載我的數據:
library(FactoMineR)
mydata = read.csv("/home/tom/Desktop/ACM/acm.csv")
然後我設置我的變量爲定性的(我不包括變量「電子郵件」雖然):
for(n in 1:length(mydata)){mydata[[n]] <- factor(mydata[[n]])}
我從我的矢量取出電子郵件:
mydata2 = mydata[2:31]
而且我在這個新的數據集運行的MCA:
mca.res <- MCA(mydata2)
我現在想用HCPC功能聚集我的數據集:
res.hcpc <- HCPC(mca.res)
,但我得到了以下錯誤消息:
Error: cannot allocate vector of size 1296.0 Gb
你認爲我應該怎麼做?我的數據集是否太大?我使用hcpc功能嗎?
我能夠用一個啞數據集複製問題。我認爲你正以正確的方式使用HCPC,以及MCA。我想你可能想研究稀疏聚類算法,因爲HCPC是基於agnes的。 CLARA可能有用,但其他可用。 – 2014-12-08 11:28:21