2013-08-30 66 views
2

在R,我有以下數據框:通過用「。」分隔的字符的正則表達式分割數據幀列。

 Name  Category 
1 Beans 1.12.5 
2 Pears 5.7.9 
3 Eggs  10.6.5 

我想有如下:

 Name  Cat1 Cat2 Cat3 
1 Beans 1  12  5 
2 Pears 5  7  9 
3 Eggs  10  6  5 

理想中plyr內置了一些表情就好了

我會在我身邊調查,但作爲搜索這可能需要我很多時間,我只是想知道如果你們中的一些人有一些提示來執行此操作...

+2

你期望每一個項目正好有三類? –

+1

你說得對,我應該對此更加確切,有些答案會少於或多於3個類別,最少1個,最多5個! –

回答

7

我寫了一個函數concat.split(一功能「家庭」,其實)我的splitstackshape包的一部分來處理這些類型的問題:

# install.packages("splitstackshape") 
library(splitstackshape) 
concat.split(mydf, "Category", ".", drop=TRUE) 
# Name Category_1 Category_2 Category_3 
# 1 Beans   1   12   5 
# 2 Pears   5   7   9 
# 3 Eggs   10   6   5 

它也很好地處理「不平衡」數據。

dat <- data.frame(Name = c("Beans", "Pears", "Eggs"), 
        Category = c("1.12.5", "5.7.9.8", "10.6.5.7.7")) 
concat.split(dat, "Category", ".", drop = TRUE) 
# Name Category_1 Category_2 Category_3 Category_4 Category_5 
# 1 Beans   1   12   5   NA   NA 
# 2 Pears   5   7   9   8   NA 
# 3 Eggs   10   6   5   7   7 

因爲「長」或「熔融」數據在這些類型的情況下,往往需要,concat.split.multiple函數有一個「長」的說法太:

concat.split.multiple(dat, "Category", ".", direction = "long") 
#  Name time Category 
# 1 Beans 1  1 
# 2 Pears 1  5 
# 3 Eggs 1  10 
# 4 Beans 2  12 
# 5 Pears 2  7 
# 6 Eggs 2  6 
# 7 Beans 3  5 
# 8 Pears 3  9 
# 9 Eggs 3  5 
# 10 Beans 4  NA 
# 11 Pears 4  8 
# 12 Eggs 4  7 
# 13 Beans 5  NA 
# 14 Pears 5  NA 
# 15 Eggs 5  7 
+0

我發現它處理的是不等數值的情況。 – thelatemail

+0

很酷,因爲它就像'rbind.fill' +1 –

+0

在我的新splitstackshape-concat.split.multiple-life的第一天!未來是光明的! +1 – Henrik

2

如果您有類別的數一致,那麼這將工作:

#recreate your data first: 
dat <- data.frame(Name = c("Beans", "Pears", "Eggs"), Category = c("1.12.5", 
"5.7.9", "10.6.5"),stringsAsFactors=FALSE) 

spl <- strsplit(dat$Category,"\\.") 
len <- sapply(spl,length) 
dat[paste0("cat",1:max(len))] <- t(sapply(spl,as.numeric)) 

結果:

dat 
    Name Category cat1 cat2 cat3 
1 Beans 1.12.5 1 12 5 
2 Pears 5.7.9 5 7 9 
3 Eggs 10.6.5 10 6 5 

如果你有分隔值的不同數量,那麼這應該佔它:

#example unbalanced data 
dat <- data.frame(Name = c("Beans", "Pears", "Eggs"), Category = c("1.12.5", 
"5.7.9", "10.6.5"),stringsAsFactors=FALSE) 
dat$Category[2] <- "5.7" 

spl <- strsplit(dat$Category,"\\.") 
len <- sapply(spl,length) 
spl <- Map(function(x,y) c(x,rep(NA,max(len)-y)), spl, len) 

dat[paste0("cat",1:max(len))] <- t(sapply(spl,as.numeric)) 

結果:

Name Category cat1 cat2 cat3 
1 Beans 1.12.5 1 12 5 
2 Pears  5.7 5 7 NA 
3 Eggs 10.6.5 10 6 5 
2

的qdap封裝具有colsplit2df只是這些排序情況:

#recreate your data first: 
dat <- data.frame(Name = c("Beans", "Pears", "Eggs"), Category = c("1.12.5", 
"5.7.9", "10.6.5"),stringsAsFactors=FALSE) 

library(qdap) 
colsplit2df(dat, 2, paste0("cat", 1:3)) 

## > colsplit2df(dat, 2, paste0("cat", 1:3)) 
## Name cat1 cat2 cat3 
## 1 Beans 1 12 5 
## 2 Pears 5 7 9 
## 3 Eggs 10 6 5