2016-06-30 50 views
-1

具有重複玩家名稱和運行的板球數據子集。我的問題是有多少球員總共得分超過5000次?形成這些人的子集以及他們的跑步。數據如下。下面是對數據的一瞥。具有重複名稱的數據子集

"Player" "Runs"--- 
SM Gavaskar 28 
SS Naik 18 
AL Wadekar 67 
GR Viswanath 4 
FM Engineer 32 
BP Patel 82 
ED Solkar 3 
S Abid Ali 17 
S Madan Lal 2 
S Venkataraghavan 1 
BS Bedi 0 
SM Gavaskar 20 
SS Naik 20 
GK Bose 13 
AL Wadekar 6 
GR Viswanath 32 
FM Engineer 4 
BP Patel 12 
AV Mankad 44 
ED Solkar 0 
S Abid Ali 6 
S Madan Lal 3 
SM Gavaskar 36 
ED Solkar 8 
AD Gaekwad 22 
GR Viswanath 37 
BP Patel 16 
S Abid Ali 
KD Ghavri 
M Amarnath 
FM Engineer 
S Madan Lal 
S Venkataraghavan 
SM Gavaskar 65 
FM Engineer 54 

請建議方法。在Excel中,我們將刪除重複項並應用sumif。 R怎麼樣?

+0

我假設你想總共每個玩家的運行次數,那麼重複次數是多少? – Sumedh

+0

是的,我需要每個球員的總跑動數。重複的意思Gavaskar在其他比賽中有幾次跑動,所以我們需要添加他的所有跑步。 –

回答

1

假設您在Excel中有一個csv文件中的數據,其中名爲'player'的第一列代表玩家,第二列代表'runs'代表運行次數。

dat <- read.csv("cricket.csv", header=TRUE) # read in the data 
dat.nodup <- tapply(dat$runs, dat$player, function(x) sum(x, na.rm=TRUE)) # sum runs for each player with duplicate observations 
dat.gt5000 <- dat.nodup[which(dat.nodup > 5000)] # keep only records with > 5000 runs 
length(dat.gt5000) # Number of players with > 5000 runs 
+0

嗨凱爾,問題是我需要計算每個球員的總和,因爲球員是重複的。然後,我們可以繼續使用上述命令。 –

+0

嗨凱爾,謝謝你的回答,我得到11次運行總數超過5000運行從數據使用你的命令(交叉驗證與Excel也)。非常感謝 。 –