2015-11-27 32 views
0

我正在組織使用混合模型的數據。長格式數據處理與不平衡觀測

關於nr個觀測數據是不平衡的。

它看起來是這樣的:

Id <- c("A","A","A","A", "B", "B", "B", "C", "C", "D","D","D","D","D","D") 
v1 <- c(5,5,5,5,8,8,8,15,15,4,4,4,4,4,4) 
v2 <- c(3,3,3,3,5,5,5,10,10,8,8,8,8,8,8) 

my_data <- data.frame(Id, v1, v2) 

head(my_data, n = 20) 

V1和V2可以被看作是靜態的預測,因爲他們有過ID相同的值。數據在觀察次數方面不平衡。

問題A =如何計算靜態預測變量v1的平均值(每個ID的一次觀察值的均值)。

問題B =如何在數據集中的新列中使用類似「切割號碼」的方法將v1組織到一個新的靜態預測變量中,其中3個級別(「低」,「中位數」,「高位」)?

回答

0

問 - 答:

mean(tapply(v1, Id, mean)) 

問題B:使用cut()功能。