2015-08-31 65 views
0

考慮數據集,用戶可以在3個活動中選擇,我們必須爲他們的第10個活動的選擇數據。示例數據:如何羣集連續分類數據中的R

for (i in 1:10) 
{ 
    # sample from list of 3 strings using a set probability 
    x <- sample(c("A", "B", "C"), 1000, replace=TRUE, prob=c(0.5, 0.3, 0.2)) 
    # assign to variable created on the fly 
    assign(paste("cat", i, sep=""), x) 
} 

first10 <- data.frame(cat1, cat2, cat3, cat4, cat5, cat6, cat7, cat8, cat9, cat10) 

R中根據活動順序對用戶進行羣集的最佳方法是什麼?

我在環視上看了一下,最類似的問題是關於如何在R中分類分類數據(這是分析的一部分),但這本身並沒有考慮到序列性質數據。是否有R軟件包非常適合這種分析?

回答

0

查找頻繁項集挖掘,而不是集羣。

大多數聚類方法是連續數字數據,並且假設一些矢量場。他們考慮到每個方面。

頻繁模式,但是,可以是僅一部分,如果一個序列,一個序列可以表現出這些圖案的多個(或沒有),並且圖案可以具有間隙其間。所有這些屬性通常都是可取的。

+0

還有用於聚類分類數據,如Rmixmod或聚類基於高爾的距離的距離矩陣的方法。通常情況下,我們有一個混合數據集,在這裏可以進行聚類。例如見:http://stats.stackexchange.com/questions/15635/robust-cluster-method-for-mixed-data-in-r 我想建議的方法很有趣,但它的尋址一個不同的問題。這相當於在連續數據集中尋找高度相關的變量(或者可能使用因子分析),但這與爲案例創建分類模型不同。 – Runic