我從Ronak Shah和akrun(in this post)如何構建一個正則表達式的每一個方面,從(在我的例子ALLDATA),除了那些話一個數據幀排除了解到,使用R,如何在這種情況下正確使用str_extract?
^\ BWORD1 | WORD2 | WORD3 | WORD4 | WORD5 \>
,但由於某些原因,想不通爲什麼它給我
「WORD2」, 「WORD3」,NA
代替
「WORD1 WORD2 WORD5」, 「WORD3」,NA
這裏是我的例子:
library(stringr)
alldata <- data.frame(toupper(c("word1 anotherword word2 word5", "word3", "none")))
names(alldata)<-"columna"
removeex <- c("word1" , "word2" ,"word3" ,"word4", "word5")
regularexprex <- toupper(paste0("^\\b",paste0(removeex, collapse = "|"), "\\>"))
alldata$columnb <- str_extract(alldata$columna, regularexprex)
我試圖添加+或*在正則表達式的結尾但沒有任何影響。
由於事實上我是一個正則表達式的初學者,我肯定會錯過一些東西,有人可能會指導我呢? 問候,
你是說你需要爲特定列表中的所有條目獲取NA? –
我想保留列表中存在的所有單詞,刪除剩下的單詞。如果不存在,我會得到一個NA。抱歉不清楚。 –