如何用R中的gsub（）函數替換'+'

我試圖刪除數據框的一個字符串元素中存在的'+'字符。但我無法找到解決辦法。如何用R中的gsub（）函數替換'+'

以下是數據框。

txtdf <- structure(list(ID = 1:9, Var1 = structure(c(1L, 1L, 1L, 1L, 4L, 
      5L, 5L, 2L, 3L), .Label = c("government", "parliament", "parliment", 
      "poli+tician", "politician"), class = "factor")), .Names = c("ID", 
      "Var1"), class = "data.frame", row.names = c(NA, -9L)) 
# ID Var1 
# 1 government 
# 2 government 
# 3 government 
# 4 government 
# 5 poli+tician 
# 6 politician 
# 7 politician 
# 8 parliament 
# 9 parliment

我嘗試了兩種方式，他們都沒有給出預期的結果：

WAY1

txtdf <- gsub("[:punct:]","", txtdf) 
# [1] "goverme" "goverme" "goverme" "goverme" "oli+iia" "oliiia" "oliiia" 
# [8] "arliame" "arlime"

我不明白什麼是錯在這裏。我希望單獨第5個元素的'+'字符被替換爲沒有值，但是所有元素都如上編輯。

Way2

txtdf<-gsub("*//+","",txtdf) 
# [1] "government" "government" "government" "government" "poli+tician" 
# [6] "politician" "politician" "parliament" "parliment"

在這裏有根本沒有變化。我想我嘗試過的是，我試圖用雙斜槓來逃避+角色。

來源

2017-05-14 Dileep Guntamadugu

逸出使用'做'\\。 – Rahul

或者把它放在一個字符類中：'「[+]」'。由於'+'（1或更多）在字符類中沒有特殊含義，因此不需要轉義。 – LukStorms

或使用'fixed'參數：'gsub（「+」，「」，txtdf $ varname，fixed = TRUE）' – user2957945

只需使用fixed = TRUE（不需要使用正則表達式）替換它，但你必須通過指定列名做更換爲每個data.frame的「列」：

txtdf <- data.frame(job = c("government", "poli+tician", "parliament")) 
txtdf

給

  job 
1 government 
2 poli+tician 
3 parliament

現在更換「+」：

txtdf$job <- gsub("+", "", txtdf$job, fixed = TRUE) 
txtdf

結果：

  job 
1 government 
2 politician 
3 parliament

來源

2017-05-14 16:04:29

爲了讓你的正則表達式成爲固定表達式，另一個參數是「fixed = TRUE」，這是一個新的學習！謝謝 –

你需要逃避你加號「+」具有特殊的含義（它是一個量詞），當涉及到正則表達式，因此不能被視爲一個標點符號，從技術文檔：?regex

「+」前一項將匹配一次或多次。

要匹配這些特殊字符，您需要將這些特殊字符轉義，以便可以從字面上理解它們的含義，因此它們的特殊含義不會被翻譯。在R中，你需要兩個反斜槓（\）才能逃脫。所以你的情況，這將是這樣的：

gsub("\\+","",df$job)

上面跑會給你從你的數據刪除所有加符號所期望的結果。

所以假設你的df是：

df <- data.frame(job = c("government", "poli+tician","politician", "parliament"))

那麼你的輸出將是：

> gsub("\\+","",df$job) 
[1] "government" "politician" "politician" 
[4] "parliament"

來源

2017-05-14 16:39:57 PKumar

反斜槓轉義字符完美工作！謝謝！！ –

如何用R中的gsub（）函數替換'+'

回答

相關問題