如何計算因子，並在同一年沒有雙重計數

我有一個數據如下，我想做累計計數的名稱的發生，但計數不能計算兩次在同一年。如何計算因子，並在同一年沒有雙重計數

mydata<- 
data.table(name=c("hon","hon","hon","acer","acer","acer","acer","acer"), 
year=c(1991,1991,1992,1981,1982,1983,1983,1983), 
count=c(1,1,2,1,2,3,3,3)) 
setDT(mydata)

我最初的解決方案是

但它會在同年重複計算。任何建議是值得歡迎的。 thx推進。

來源

2017-04-18 changjx

'mydata [，mycount：= cumsum（！duplicated（year）），by = name]'？ –

@docendodiscimus我不知道OP希望'count'中的預期輸出。無論如何，我發佈了一個答案 – akrun

我們可以使用match通過「名」

mydata[, mycount := match(year, unique(year)), name] 
mydata 
# name year count mycount 
#1: hon 1991  1  1 
#2: hon 1991  1  1 
#3: hon 1992  2  2 
#4: acer 1981  1  1 
#5: acer 1982  2  2 
#6: acer 1983  3  3 
#7: acer 1983  3  3 
#8: acer 1983  3  3

或者另一種選擇是分組後factor與levels指定爲unique按「姓名」分組後的「年份」的元素，然後將其轉換爲integer

mydata[, mycount := as.integer(factor(year, levels = unique(year))), name]

來源

2017-04-18 09:19:34 akrun

問我是否想從零開始計算，我如何表現。 mydata [，mycount：= mycount-1]顯示NA @@？ – changjx

@changjx只需要減去1即'mydata [，mycount：= match（year，unique（year）） - 1，name]'對於我來說，它給出了預期的輸出，即'mydata $ mycount ＃[1] 0 0 1 0 1 2 2 2' – akrun

看來你想要每個名稱不同年份的累計數。要做到這一點，你可以在一年列中使用duplicated，否定它，cumsum：

mydata[, mycount := cumsum(!duplicated(year)), by = name] 

# name year count mycount 
# 1: hon 1991  1  1 
# 2: hon 1991  1  1 
# 3: hon 1992  2  2 
# 4: acer 1981  1  1 
# 5: acer 1982  2  2 
# 6: acer 1983  3  3 
# 7: acer 1983  3  3 
# 8: acer 1983  3  3

來源

2017-04-18 09:18:11

如何計算因子，並在同一年沒有雙重計數

回答

相關問題