2017-05-13 237 views
1

假設下列數據:線性內插通過組中的R

 Date  V1    V2 
1 1996-01-04 0.04383562 days 0.1203920 
2 1996-01-04 0.12054795 days 0.1094760 
.............. 
3 1996-02-01 0.04383562 days 0.1081815 
4 1996-02-01 0.12054795 days 0.1092450 
.............. 
5 1996-03-01 0.04109589 days 0.1553875 
6 1996-03-01 0.13687215 days 0.1469690 

對於每個組的日期(我區分它們由爲便於點),我想要做一個簡單的線性內插:用於V1=0.08我會得到什麼V2

我已經試過: 第一最合乎邏輯的方法來使用approx

IV<-data %>% group_by(Date) %>% approx(V1,V2,xout=0.08) 

而是我得到這個錯誤:

Error in approx(., V1, V2, xout = 0.08) : 
    invalid interpolation method 
In addition: Warning message: 
In if (is.na(method)) stop("invalid interpolation method") : 
    the condition has length > 1 and only the first element will be used 

然後我想:

Results<-unsplit(lapply(split(data,data$Date),function(x){m<-lm(V2~V1,x) 
                 cbind(x,predict(m,0.08))}),data$Date) 

一個錯誤:

Error in model.frame.default(formula = x[, 3] ~ x[, 2], data = x, drop.unused.levels = TRUE) : 
    invalid type (list) for variable 'x[, 3]' 

我也試過dplyr包沒有結果:

IV<-data %>% group_by(Date) %>% predict(lm(V2~V1,data=data,0.08) 

這給了錯誤:

Error in UseMethod("predict") : 
    no applicable method for 'predict' applied to an object of class "c('grouped_df', 'tbl_df', 'tbl', 'data.frame')" 

謝謝。

回答

2

您在approx中收到的錯誤是因爲您在使用%>%時通過data.frame作爲第一個參數。所以你的電話是approx(df, v1, v2, xout=0.08)

你可以做到在一個內襯使用data.tableapprox電話:

library(data.table) 
#created as df instead of dt for use in dplyr solution later 
df <- data.frame(grp=sample(letters[1:2],10,T), 
      v1=rnorm(10), 
      v2=rnorm(10)) 

dt <- data.table(df) 

dt[, approx(v1,v2,xout=.08), by=grp] 

#output 
    grp x   y 
1: b 0.08 -0.5112237 
2: a 0.08 -1.4228923 

在第一遍留在tidyverse我的解決方案的心不是那麼整齊;有可能有更清晰的方式來完成這項工作,但我認爲很難打敗data.table解決方案。

解決方案被迫magrittr管道:

library(dplyr) 

df %>% 
    group_by(grp) %>% 
    summarise(out=list(approx(v1,v2,xout=.08))) %>% 
    ungroup() %>% 
    mutate(x=purrr::map_dbl(out,'x'), 
      y=purrr::map_dbl(out,'y')) %>% 
    select(-out) 

#output 
# A tibble: 2 × 3 
    grp  x   y 
    <fctr> <dbl>  <dbl> 
1  a 0.08 -1.4228923 
2  b 0.08 -0.5112237 
+0

很抱歉這麼晚纔回復,但大約不能很好地工作(返回NA)時,我推斷,是正確的? 它適用於插值部分。 –