我是R和聚類世界的新手。我正在使用購物數據集來從中提取功能,以便識別有意義的內容。Kmeans聚類識別R中的知識
到目前爲止我已經學會了如何合併文件,刪除na,做錯誤平方和,鍛鍊平均值,按小組總結,做K平均聚類並繪製結果X,Y.
但是,我很困惑如何查看這些結果或確定什麼是有用的集羣?我是在重複一些事情還是錯過了某些東西?我對繪製X Y變量也很困惑。
下面是我的代碼,也許我的代碼可能是錯誤的。能否請你幫忙。任何幫助都會很棒。
# Read file
mydata = read.csv(file.choose(), TRUE)
#view the file
View(mydata)
#create new data set
mydata.features = mydata
mydata.features <- na.omit(mydata.features)
wss <- (nrow(mydata.features)-1)*sum(apply(mydata.features,2,var))
for (i in 2:20) wss[i] <- sum(kmeans(mydata.features, centers=i)$withinss)
plot(1:20, wss, type="b", xlab="Number of Clusters", ylab="Within groups sum of squares")
# K-Means Cluster Analysis
fit <- kmeans(mydata.features, 3)
# get cluster means
aggregate(mydata.features,by=list(fit$cluster),FUN=mean)
# append cluster assignment
mydata.features <- data.frame(mydata.features, fit$cluster)
results <- kmeans(mydata.features, 3)
plot(mydata[c("DAY","WEEK_NO")], col= results$cluster
樣本數據變量,下面都是我有我的數據集內的變量,它的購物數據集收集了2年
PRODUCT_ID - 唯一標識每個產品 household_key - 唯一標識每個家庭 BASKET_ID - 唯一標識購買機會 DAY - 交易發生的日期 QUANTITY - 行程期間購買的產品數量 SALES_VALUE - 美元零售商從銷售中獲得的金額 STORE_ID - 標識獨特商店 RETAIL_DISC - disccount應用由於製造券 TRANS_TIME - 一天的時間,當交易發生的 WEEK_NO - 交易周出現1-102 製造商 - 代碼鏈接產品具有相同的製造一起 部 - 集團同類產品一起 品牌 - 表明私人或國家的標籤帶 COMMODITY_DESC - 同類產品組在一起下級 SUB_COMMODITY_DESC - 在最低水平
您可能感興趣的函數'clusGap'在'cluster'包中。它計算k的許多可能值的'聚類'統計的好處。由於您尚未提供樣本數據,因此您的問題無法重現。另外,關於如何識別有用羣集的問題在統計和機器學習中是一個複雜的,未解答的問題。不是一個真正的編程問題。 – bdemarest 2015-02-18 00:58:24
嗨我剛剛添加了我的數據集中的所有變量。我很難理解哪些特徵可以用於識別數據集中有意義的內容? – user2704941 2015-02-18 08:15:22