Excel SUMIFS等效於R

我對R非常陌生，正在尋找重新創建Excel VBA宏和Excel工作表函數（如SUMIFS）的方法。如果行的條目與其他列上的多個條件匹配，則SUMIFS會對列進行求和。Excel SUMIFS等效於R

我有下面的數據框，我想計算一個新的列。對於與Start Date和EndDate範圍重疊的所有行，新列是Sample的總和。例如，在線1它將是697（第一個3 lines的總和）。用於具體的總和的標準：包括SampleEndDate >= StartDate[i] & StartDate <=EndDate[i]如果

StartDate EndDate Sample *SUMIFS example* 
10/01/14 24/01/14 139   *697* 
12/01/14 26/01/14 136 
19/01/14 02/02/14 422 
25/01/14 08/02/14 762 
29/01/14 12/02/14 899 
05/02/14 19/02/14 850 
07/02/14 21/02/14 602 
09/02/14 23/02/14 180 
18/02/14 04/03/14 866

任何意見或指針將不勝感激。

來源

2014-11-03 Barnaby1

假設你有在數據幀中的上述數據稱爲df：

sum(df$Sample[EndDate >= df$StartDate & StartDate <= df$EndDate])

即：

df$Sample[...]選擇Sample柱，用在[...]
EndDate >= df$StartDate和StartDate <= df$EndDate指定的條件來自你的例子，轉換爲R條件，在&之間要求兩個條件同時爲真。注意表達式中沒有i索引。這就是它在R中的工作原理，表達式針對數據幀中的每一行進行評估，並且df$Sample[...]的結果是值的向量，僅[...]中的表達式爲真的值
sum當然是內置的，在函數計算總和，自然

來源

2014-11-03 20:23:56 janos

這不會給OP想要的東西，對於每一行，他想看看其他行和總結樣品柱是否符合標準。 – 2014-11-03 20:54:40

非常感謝，但正如卡梅隆所說，這並不完全符合我的希望（儘管他總結得很完美）。我很感激幫助。 – Barnaby1 2014-11-03 21:51:05

你可以做一個循環或笛卡爾合併。我不知道任何內置的函數可以做到這一點。

library(dplyr) 

x = structure(list(StartDate = structure(c(1389312000, 1389484800, 
1390089600, 1390608000, 1390953600, 1391558400, 1391731200, 1391904000, 
1392681600), tzone = "UTC", class = c("POSIXct", "POSIXt")), 
    EndDate = structure(c(1390521600, 1390694400, 1391299200, 
    1391817600, 1392163200, 1392768000, 1392940800, 1393113600, 
    1393891200), tzone = "UTC", class = c("POSIXct", "POSIXt" 
    )), Sample = c(139L, 136L, 422L, 762L, 899L, 850L, 602L, 
    180L, 866L)), .Names = c("StartDate", "EndDate", "Sample" 
), row.names = c(NA, -9L), class = "data.frame") 

x2 = x 
names(x2)=c('StartDate2','EndDate2','Sample2') 
x3 = merge(x,x2,allow.cartesian =T) 
x4 = summarise(group_by(x3,StartDate,EndDate), 
    sumifs=sum(Sample2[EndDate2 >= StartDate & StartDate2 <= EndDate])) 
x_sumifs = merge(x,x4,by=c('StartDate','EndDate'))

這就是輸出的樣子。

> x_sumifs 
    StartDate EndDate Sample sumifs 
1 2014-01-10 2014-01-24 139 697 
2 2014-01-12 2014-01-26 136 1459 
3 2014-01-19 2014-02-02 422 2358 
4 2014-01-25 2014-02-08 762 3671 
5 2014-01-29 2014-02-12 899 3715 
6 2014-02-05 2014-02-19 850 4159 
7 2014-02-07 2014-02-21 602 4159 
8 2014-02-09 2014-02-23 180 3397 
9 2014-02-18 2014-03-04 866 2498

來源

2014-11-03 20:52:09

你可以使用lapply/sapply從base R做到這一點。 x from @ cameron.bracken的帖子。

x$sumifs <- sapply(seq_len(nrow(x)), function(i) with(x, 
      sum(Sample[EndDate >= StartDate[i] & StartDate <= EndDate[i]]))) 

x 
# StartDate EndDate Sample sumifs 
#1 2014-01-10 2014-01-24 139 697 
#2 2014-01-12 2014-01-26 136 1459 
#3 2014-01-19 2014-02-02 422 2358 
#4 2014-01-25 2014-02-08 762 3671 
#5 2014-01-29 2014-02-12 899 3715 
#6 2014-02-05 2014-02-19 850 4159 
#7 2014-02-07 2014-02-21 602 4159 
#8 2014-02-09 2014-02-23 180 3397 
#9 2014-02-18 2014-03-04 866 2498

來源

2014-11-04 10:57:32 akrun

您可以使用'by'功能來獲取該值。在'by'中，數據幀被逐行分解爲由一個或多個因子的值子集的數據幀，並且函數被依次應用於每個子集。

x$sumifs <- by(Sample[EndDate >= StartDate[i] & StartDate <= EndDate[i]],sum)

有關功能的更多細節，可以發現here

來源

2017-07-13 18:21:45

Excel SUMIFS等效於R

回答

相關問題