2017-06-21 111 views
0

我有一個數據幀(df1)作爲單列數據報廢。R數據清理

1 
2 Amazon Pantry 
3 Best Sellerin Soaps & Hand Wash 
4 
5 Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml 
6 Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml 
7 £0.90 
8 ? 
9 
10 Palmolive Naturals Nourishing Liquid Hand Wash, 300ml 
11 Palmolive Naturals Nourishing Liquid Hand Wash, 300ml 
12 £0.90 
13 ? 
14 
15 L'Oreal Men Expert Carbon Protect Deodorant 250ml 
16 L'Oreal Men Expert Carbon Protect Deodorant 250ml 
17 £1.50 

爲了清理數據,我嘗試使用下面的命令,以便在2個獨立的列中獲取產品和定價信息。有人可以告訴我是否有一種替代方法。

install.packages("splitstackshape") 
newdf <- cSplit(df1, "Amazon_Normal_Text2", direction = "long") 

回答

0

這僅僅是一個思維過程...

  1. 每次有「ml,」提取信息,直到ml會落後,直到有空間和存儲到容量可變的。 (substr
  2. £提取信息到字符串的末尾並將其存儲到價格變量中。 (grepregexnchar)從字符串的開頭
  3. 提取直到體積發生成產物可變的字符位置(substrnchar

直視substrnchargrepregex