dplyr中group_by函數的錯誤

我已經查看了相關的dplyr問題，R文檔，並嘗試對我認爲是語法誤解的東西進行排序。dplyr中group_by函數的錯誤

以下是反映我的數據strx的示例數據。

id <- c(1:20) 
xvar <- seq(from=2.0, to=6.0, length.out=100) 
yvar <- c(1:100) 
binary <- sample(x=c(0,1), size=100, replace=TRUE) 

breaks <- c(0,11,21,31,41,51,61,71,81,91,100) 
df <- data.frame(id, xvar, yvar, binary) 
df <- transform(df, bin=cut(yvar, breaks)) 

    id  xvar yvar binary bin 
1 1 2.000000 1  1 (0,11] 
2 2 2.040404 2  0 (0,11] 
3 3 2.080808 3  0 (0,11] 
4 4 2.121212 4  0 (0,11] 
5 5 2.161616 5  1 (0,11] 
6 6 2.202020 6  0 (0,11]

我想運行下面，看着xvar手段，由binary變量劃分如何，都顯著不同的基礎上，他們屬於bin組。

pval <- df %>% group_by(bin) %>% summarise(p.value=t.test(xvar ~ factor(binary))$p.value)

不過，我不斷收到錯誤：「聚合因子必須只有2級」

我看到了類似的帖子這一點，但問題是T.test是如何正在運行。我使用不同的group_by對象運行了相同的代碼，它工作得很好。數據時間是一個因素和一切。

有什麼想法？我也希望對如何改善這個問題的提出方式提出批評。

來源

2017-09-24 asshah4

在每個組中，只有一個'binary'的值，所以不清楚你想用't.test'來處理這些值，並且它拋出了一個像't.test（c（ 1，2）〜c（1,1））'。你想要比較每個'xvar'組的意思到什麼？ – alistaire

我認爲生成的數據幀可能太小（所以沒有足夠的值）來創建適當的測試。讓我編輯數據幀，使其更健壯。 – asshah4

我希望顯示的是......對於'xvar'值的範圍，它們可以通過變量'binary'分組，並且可以對它們運行t檢驗。我想對每個'bin'運行t檢驗作爲分組變量。那有意義嗎？ – asshah4

我想我已經解決了這個問題。

只要t.test中沒有足夠的數據，「分組因子必須有2個水平」。我只是假設我的原始數據集很大，足以不會遇到這個問題。

當我使樣本數據更健壯時，錯誤消失。

對不起，浪費時間，並感謝您的幫助！

來源

2017-09-24 20:14:42 asshah4

你不想爲此使用dplyr。你想要一個線性模型。

mod <- lm(xvar ~ binary*bin, data=df) 
anova(mod)

要進一步討論係數，P值和平方和意味着什麼，請考慮詢問stats.SE。

來源

2017-09-24 19:57:54

我很感激幫助 - 我必須閱讀更多關於此的信息。我希望找出爲什麼這個「2級分組因素」錯誤繼續發生。 – asshah4

dplyr中group_by函數的錯誤

回答

相關問題