多個日期範圍的條件連接

我有兩個數據框：「探針」和「事件」。以下代碼將生成這些數據幀的可重現樣本。 Probes.subset是來自探測器的所有觀測數據的一個數據幀，它與Events中的日期時間範圍相交。下面的代碼會生成6個事件...實際上我有近200個謹慎的事件。多個日期範圍的條件連接

目標：我需要根據時間戳將事件中的Event.name連接到Probes.subset中的每個對應觀察值，以便每個觀察值都與正確的事件關聯。

我have previously tried a FOR loop但是這是令人難以置信的緩慢，沒有完成我的數據是超過18萬行長。我有一種感覺，這可以通過編寫一個函數和使用像apply這樣的東西來解決，但我是R中的一個完整的新手，並且沒有創建工作。

library(dplyr) 

# Generate Probes data 
start <- as.POSIXct("01/06/2016 01:00", format = "%d/%m/%Y %H:%M") 
end <- start + as.difftime(1, units = "days") 

Timestamp <- seq(from = start, to = end, by = "10 mins") 
Value <- round(runif(145) * 100, 2) 

Probes <- data.frame(Timestamp, Value) 

# Generate Events data 
Event.name <- seq(1, 6) 

Event.start <- as.POSIXct(c("01/06/2016 01:20", "01/06/2016 05:00", 
          "01/06/2016 06:30", "01/06/2016 12:00", 
          "01/06/2016 17:40", "01/06/2016 19:20"), 
          format = "%d/%m/%Y %H:%M") 

Event.end <- as.POSIXct(c("01/06/2016 02:00", "01/06/2016 05:30", 
          "01/06/2016 07:20", "01/06/2016 14:00", 
          "01/06/2016 18:10", "01/06/2016 21:40"), 
          format = "%d/%m/%Y %H:%M") 

Events <- data.frame(Event.name, Event.start, Event.end) 

# Subset probes data to fall within Events bounds 
Probes.subset <- Probes %>% 
    mutate(InRange = Timestamp %in% unlist(Map(
    `:`, 
    Events$Event.start, 
    Events$Event.end 
))) %>% 
    filter(InRange == "TRUE")

來源

2017-05-05 Ciaran

[A類似的問題]（http://stackoverflow.com/questions/23095896/merging-two-dataframes-on- a-date-range-in-r）處理連接日期範圍，但它們的示例在數據框之間有一個共同的列。我不能評論他們的問題，因爲我的代表太低。 – Ciaran

這會產生你想要的結果嗎？ 'unlist（lapply（Probes.subset $ Timestamp，function（x）which（x> = Events $ Event.start＆x <= Events $ Event.end）））'。我試圖運行，但出現以下錯誤 - 您可以指定這在'Probes.subset' – Gopala

@Gopala列：在$'' 錯誤< - data.frame'（'* TMP *'，「事件」，值= C（1L，1L，1L，1L，：更換具有43行，數據已經54' – Ciaran

在SQL你可以使用as同時加入到指定別名爲不同的數據集。這使您可以從每個數據集中選擇一個特定的列。採用這個答案的代碼，你可以這樣做：

library(sqldf) 
res <- sqldf("SELECT l.*, r.`Event.name` 
     FROM Probes as l 
     LEFT JOIN Events as r 
     ON l.Timestamp BETWEEN r.`Event.start` AND r.`Event.end`") 

head(res) 
#   Timestamp Value Event.name 
#1 2016-06-01 01:00:00 60.73   NA 
#2 2016-06-01 01:10:00 14.01   NA 
#3 2016-06-01 01:20:00 17.14   1 
#4 2016-06-01 01:30:00 43.64   1 
#5 2016-06-01 01:40:00 27.05   1 
#6 2016-06-01 01:50:00 57.10   1

一個說明 - 我會小心你的數據建立以來的Events 5排你有開始時間>結束時間。

而且快速data.table的解決辦法是使用foverlaps：

library(data.table) 
setDT(Probes)[,Time2 := Timestamp] #Clean data 
setDT(Events)[, `:=`(start = min(Event.start, Event.end), end = max(Event.start, Event.end)), by = (seq_len(nrow(Events)))] 

setkey(setDT(Events), start, end) 
res2 <- foverlaps(setDT(Probes), Events, by.x = c("Timestamp", "Time2"), nomatch = NA)[, c("Time2", "Event.start", "Event.end", "start","end") := NULL]

來源

2017-05-05 14:25:20

我發現了之後我張貼，給它現在一試！ – Ciaran

，完美的工作！非常感謝你的幫助，這一直是現在相當長的一段headwreck。我打算讓我的頭周圍現在使用的R內的SQL ...還是一個新手！+1 – Ciaran

沒問題！我發現SQL對於這些類型的連接非常有用。關於我編輯的速度，以包含一個快速的'data.table'方法。雖然語法不是非常友好 –

多個日期範圍的條件連接

回答

相關問題