2013-07-02 47 views
0

目前我正在試圖找到簇的數據集,看起來像這樣的:聚類計數數據

  Dienstag 19 Mittwoch 20 Donnerstag 21 Freitag 22 Montag 25 Dienstag 26 Donnerstag 28 
[1,]   0   0    0   0   0   0   NA 
[2,]   0   0    0   0   0   0   NA 
[3,]   0   0    0   0   0   0   NA 
[4,]   0   0    0   0   1   0   NA 
[5,]   1   0    1   1   1   1   NA 
[6,]   0   0    0   0   0   0   NA 
[7,]   4   0    1   0   2   1   NA 
[8,]   0   1    2   1   0   2   NA 
[9,]   0   0    1   0   0   0   NA 
[10,]   1   0    0   0   0   1    0 
[11,]   2   0    1   0   0   5    0 
[12,]   1   0    0   0   0   1    1 
[13,]   0   1    0   0   0   0    0 
[14,]   0   0    1   0   4   1    0 

它相當於在用戶使用給定的一天,一小時的應用程序的次數進行計數。

我想查找使用情況與小時相關的模式/羣集,但我不知道如何管理它。如果你能給我一些關於方法的建議,那真的很有幫助。

+0

這實際上是一個統計問題,而不是編碼問題。但嘗試一下熱圖。 –

+0

你是真的,我會試着在統計部分提問。謝謝你的方法是一個好的開始 – Tarigarma

回答

2

在聚類方面也有統計手段,但這裏有一個視覺方法。我很懶惰,並使用我熟悉的庫來實現這一目標,但是使用一些基礎工具可能會更高效地完成這項工作。

## dat <- read.table(text="   Dienstag.19 Mittwoch.20 Donnerstag.21 Freitag.22 Montag.25 Dienstag.26 Donnerstag.28 
## [1,]   0   0    0   0   0   0   NA 
## [2,]   0   0    0   0   0   0   NA 
## [3,]   0   0    0   0   0   0   NA 
## [4,]   0   0    0   0   1   0   NA 
## [5,]   1   0    1   1   1   1   NA 
## [6,]   0   0    0   0   0   0   NA 
## [7,]   4   0    1   0   2   1   NA 
## [8,]   0   1    2   1   0   2   NA 
## [9,]   0   0    1   0   0   0   NA 
## [10,]   1   0    0   0   0   1    0 
## [11,]   2   0    1   0   0   5    0 
## [12,]   1   0    0   0   0   1    1 
## [13,]   0   1    0   0   0   0    0 
## [14,]   0   0    1   0   4   1    0", header=TRUE) 


dat$hour <- factor(1:nrow(dat)) 
library(reshape2); library(qdap); library(ggplot2); library(plyr) 
dat2 <- melt(dat) 
dat2[, 2] <- beg2char(dat2[, 2], ".") 
dat2 <- ddply(dat2, .(variable), transform, 
    rescale = scale(value)) 

ggsave("heat.png") 
ggplot(dat3, aes(variable, hour)) + geom_tile(aes(fill=rescale)) + 
    scale_fill_gradient(low = "white", high = "red") 

enter image description here

0

大多數聚類算法將假設連續數據。當然,你可以將整數「轉換」爲雙值,結果將不再像真正的連續值那樣有意義。

我喜歡泰勒視覺方法。如果有一個有意義的模式,你的大腦視覺皮層可能是發現它的最好工具。