用括號打破一行數據

我正試圖破解一行數據。不幸的是，我所有的跑步都保存爲一長排。用括號打破一行數據

第一個值是ID號。最後是性別。（無需中間的兩個）

[[131 22 2 "male"] [123 23 2 "female"] [232 21 2 "male"] [132 21 2 "male"]]

我想學習如何打破行，所以，在支架的每個值分離到自己的細胞，並在括號中不只是作爲一個長行數據的。

我的策略是讓R鍵識別爲「]」或之間的空間打破「] [」

這似乎是一個很簡單的問題，但我stringsplit，替代，其它參數不工作。

請幫忙？我只是有點傾斜/沮喪！

非常感謝

來源

2017-03-21 usa_josh

爲什麼你的論點不工作？當你嘗試時會發生什麼？顯示你正在嘗試的代碼，以及你得到的錯誤。 – pak

哇我真的很笨，我只是不得不將數據框更改爲字符串，並且我所有的代碼都能正常工作。感謝您的幫助反正fam！ –

當我嘗試strsplit，它抱怨的特殊字符[中的字符串中。正確的轉義序列是兩個反斜槓：

s = '[[131 22 2 "male"] [123 23 2 "female"] [232 21 2 "male"] [132 21 2 "male"]]' 
v0 = c(strsplit(s, "] \\["))

你會用字符串數組，其中第一串具有完成[在開始和最後一個字符串有]結尾。分別清理這些：

v1 = lapply(v0, function(s) gsub("\\[", "", s)) 
v2 = lapply(v1, function(s) gsub("]", "", s))

希望這有助於！

來源

2017-03-21 02:32:11 lebelinoz

嗯說有錯誤...非字符參數！有任何想法嗎？ –

哇我真的很笨，我只是不得不將數據框更改爲字符串，我的所有代碼都能正常工作。感謝您的幫助反正fam！ –

您可以使用tidyverse,reshape和stringr的組合來獲得所需的結果。 separate_rows從tidyverse分隔行，即將行分成多行，並且類似地，separate從reshape中分出新列。由於最後有兩個右括號，輸出任何輸出，所以我們得到兩行NA值和警告，因此我們使用na.omit()刪除NA值。如果你想只選擇第一個和最後一個欄，您可以使用select從dplyr

library(dplyr) 
library(tidyverse) # for separate_rows 
library(reshape) #for separate to separate columns 
library(stringr) # for string manipulations i.e. remove tralining and leading white spaces 
# data frame from your data 
df_1 <- data.frame(col1='[[131 22 2 "male"] [123 23 2 "female"] [232 21 2 "male"] [132 21 2 "male"]]' , stringsAsFactors = FALSE) 

# separate rows on closing brackets 
df_2 <- df_1 %>% separate_rows(col1, sep = "]") 

# remove other remaining brackets and leading and triling white space 
df_2["col1"] <- gsub("\\[|\\]", "", str_trim(df_2[["col1"]], "both")) 

# separate the single column data to multiple columns 
df_2 %>% separate(col = col1, into = c("ID", "Num1","Num2", "Gender"), sep = " ") %>% na.omit() %>% select(1,4)

輸出將是

A tibble: 4 × 2 
    ID Gender 
    <chr> <chr> 
1 131 "male" 
2 123 "female" 
3 232 "male" 
4 132 "male"

來源

2017-03-21 02:58:41 discipulus

哇謝謝你！如果我說500行，我怎麼能這樣做呢？ –

行數不重要，它應該縮放到任意數量的行。 – discipulus

可以使用strsplit和一些整形做這一切一氣呵成：

matrix(strsplit(txt, '[][ "]+')[[1]][-1], ncol=4, byrow=TRUE) 
#  [,1] [,2] [,3] [,4]  
#[1,] "131" "22" "2" "male" 
#[2,] "123" "23" "2" "female" 
#[3,] "232" "21" "2" "male" 
#[4,] "132" "21" "2" "male"

或通過read.table清理出括號後：

read.table(text=gsub("^\\[\\[|\\] \\[|\\]\\]$", "\n", txt)) 
# V1 V2 V3  V4 
#1 131 22 2 male 
#2 123 23 2 female 
#3 232 21 2 male 
#4 132 21 2 male

其中txt是：

txt <- '[[131 22 2 "male"] [123 23 2 "female"] [232 21 2 "male"] [132 21 2 "male"]]'

來源

2017-03-21 03:01:17 thelatemail

另一種模式：'「[] [] {2,3}」' – Frank

hmm表示非字符參數...任何想法？ –

@usa_josh - 你可能有一個因素不是一個字符向量。只要在分割時使用'as.character（txt）' – thelatemail

用括號打破一行數據

回答

相關問題