2017-06-28 62 views
1

我有一個數據集,其中有3個場景的50個城市的級別和趨勢。下面是樣本數據 -R對於每行的一組列的一個樣本測試

City <- paste0("City",1:50) 

L1 <- sample(100:500,50,replace = T) 
L2 <- sample(100:500,50,replace = T) 
L3 <- sample(100:500,50,replace = T) 

T1 <- runif(50,0,3) 
T2 <- runif(50,0,3) 
T3 <- runif(50,0,3) 

df <- data.frame(City,L1,L2,L3,T1,T2,T3) 

現在,在3個場景,我覺得使用下面的代碼的最低水平和最低趨勢 -

df$L_min <- apply(df[,2:4],1,min) 
df$T_min <- apply(df[,5:7],1,min) 

現在我要檢查,如果這些最低值是顯著各級別和趨勢各不相同。因此請檢查L_min第2-4列和T_min第5-7列。這需要爲每個城市(行)完成,如果顯着,則返回與哪個列顯着不同。

如果有人能指導如何做到這一點,這將有所幫助。

謝謝!

+0

所以你想找到統計學上顯着的比較,如第1行L1列和L_min的值? 1 vs 1? – Adamm

+0

您能否詳細說明您的意思是「顯着不同」? – Enigma

+0

@Adamm,感謝您關注此事。我想檢查每一行(城市)的L_min是否與L1&L2和L3顯着不同。類似地,如果T_min與T1&T2&T3顯着不同。一旦我有這樣的則因爲L_min和T_min的是從3個場景最小值則希望在最小值多少案件是爲每個3分的情況顯著不同的理解和推斷哪種方案更好。 – user1412

回答

1

我會把我的想法放在這裏,但我期待爲他人提供想法。

> head(df) 
    City L1 L2 L3  T1   T2  T3 L_min  T_min 
1 City1 251 176 263 1.162313 0.07196579 2.0925715 176 0.07196579 
2 City2 385 406 264 0.353124 0.66089524 2.5613980 264 0.35312402 
3 City3 437 333 426 2.625795 1.43547766 1.7667891 333 1.43547766 
4 City4 431 405 493 2.042905 0.93041254 1.3872058 405 0.93041254 
5 City5 101 429 100 1.731004 2.89794314 0.3535423 100 0.35354230 
6 City6 374 394 465 1.854794 0.57909775 2.7485841 374 0.57909775 
> df$FC <- rowMeans(df[,2:4])/df[,8] 
> df <- df[order(-df$FC), ] 
> head(df) 
    City L1 L2 L3  T1  T2   T3 L_min  T_min  FC 
18 City18 461 425 117 2.7786757 2.6577894 0.75974121 117 0.75974121 2.857550 
38 City38 370 117 445 0.1103141 2.6890014 2.26174542 117 0.11031411 2.655271 
44 City44 101 473 222 1.2754675 0.8667007 0.04057544 101 0.04057544 2.627063 
10 City10 459 361 132 0.1529519 2.4678493 2.23373484 132 0.15295194 2.404040 
16 City16 232 393 110 0.8628494 1.3995549 1.01689217 110 0.86284938 2.227273 
15 City15 499 475 182 0.3679611 0.2519497 2.82647041 182 0.25194969 2.117216 

現在,您根據頂部的列2:4獲得最不同的行。列5:7以類似的方式。

而且一些技巧stastical測試:

  1. 始終使用而不是魏氏t.test(參數化,基於平均)(U-曼惠特尼 - 非參數的基礎上,中位數),它具有更多的功率; 但是

- 數據集應該是大的前。 hipotesis:蒙特利爾比魁北克有更高的公民; t.test將正常工作,當你把每個城市100人,所以我們有200人100高度measurment VS 100

- 配送應接近所有樣品中正常分佈;或者兩個樣本應該具有與正常相似的分佈 - 它可能是二項式的。無論如何,當一個樣本的分佈正常時,我們不能使用這個測試,其次沒有。

兩個樣品的-Size應eqal,因此100 VS 100是好的,但87 VS 234不完全,p值將低於0.05,然而,它可以被歪曲。

如果你的數據不符合上述條件的,我更喜歡非參數檢驗,更省電而且更耐。

+1

非常感謝!這是我的要求最近的答案。 – user1412

相關問題