dplyr過濾器函數與列名衝突

我試圖用dplyr替換腳本中的所有subset調用：這是我在嘗試子集數據時遇到的問題。dplyr過濾器函數與列名衝突

options(stringsAsFactors=F, width=175) 
library(dplyr) 

d <- data.frame(
    col1 = c('a', 'b', 'c', 'd'), 
    col2 = c(1, 2, 3, 4)) 

f <- data.frame(
    col1 = c('a', 'd', 'c'), 
    col2 = c('a', 'd', 'c'), 
    col3 = c('a', 'd', 'c'), 
    flag = c('blue', 'blue', 'red')) 

filter(d, col1 %in% filter(f, flag == 'blue')$col1) 
filter(d, col1 %in% filter(f, flag == 'blue')$col2) 
filter(d, col1 %in% filter(f, flag == 'blue')$col3)

輸出：

> filter(d, col1 %in% filter(f, flag == 'blue')$col1) 
[1] col1 col2 
<0 rows> (or 0-length row.names) 
> filter(d, col1 %in% filter(f, flag == 'blue')$col2) 
Error: invalid subscript type 'double' 
> filter(d, col1 %in% filter(f, flag == 'blue')$col3) 
    col1 col2 
1 a 1 
2 d 4

看起來它取決於列的名稱。這是預期的嗎？我究竟做錯了什麼？

謝謝！

會議：

R version 3.2.0 (2015-04-16) 
Platform: x86_64-unknown-linux-gnu (64-bit) 
Running under: CentOS release 6.6 (Final) 

locale: 
[1] LC_CTYPE=en_CA.UTF-8  LC_NUMERIC=C    LC_TIME=en_CA.UTF-8  LC_COLLATE=en_CA.UTF-8  LC_MONETARY=en_CA.UTF-8 LC_MESSAGES=en_CA.UTF-8 
[7] LC_PAPER=en_CA.UTF-8  LC_NAME=C     LC_ADDRESS=C    LC_TELEPHONE=C    LC_MEASUREMENT=en_CA.UTF-8 LC_IDENTIFICATION=C  

attached base packages: 
[1] stats  graphics grDevices utils  datasets methods base  

other attached packages: 
[1] dplyr_0.4.3 

loaded via a namespace (and not attached): 
[1] lazyeval_0.1.10 magrittr_1.5 R6_2.1.1  assertthat_0.1 parallel_3.2.0 tools_3.2.0  DBI_0.3.1  Rcpp_0.12.0

來源

2016-02-28 Melka

你能描述你想要達到的輸出是什麼？ –

我期望獲得最後一個例子'filter（d，col1％in％filter（f，flag =='blue'）$ col3）' – Melka

的輸出結果非常瘋狂，我的問題如何被低估。這是一個合法的問題，可能會影響我們從這個函數得到的結果。 – Melka

非標準評價嵌套函數（如filter）似乎是在自找麻煩;對於dplyr，要在兩個不同的環境（f和d）中評估表達式col1非常棘手。以下任意一項都可以工作：

filter(d, col1 %in% filter(f,flag=="blue")[["col1"]])

或

filter(d,col1 %in% f$col1[f$flag=="blue"])

或

vals <- filter(f,flag=="blue")$col1 
filter(d,col1 %in% vals)

來源

2016-02-28 02:29:57

你知道它爲什麼適用於'subset'嗎？ – Melka

不，我不知道。爲了弄清楚，你必須深入研究（即查看代碼）並準確分析在每種情況下如何執行非標準評估。 'subset（）'只使用'eval_parent'，'filter'使用'lazyeval'包中的機器。 –

dplyr過濾器函數與列名衝突

回答

相關問題