我需要,高效,分析我的數據幀列的一個(URL字符串) 和調用一個函數(strsplit)解析它,例如:r使用上的數據幀列函數
url <- c("www.google.com/nir1/nir2/nir3/index.asp")
unlist(strsplit(url,"/"))
我的數據框架:spark.data.url.clean看起來是這樣的:
classes url
[107,662,685,508,111,654,509] drudgereport.com/level1/level2/level3
這DF有10萬行,我不想循環/迭代它,單獨解析每一個URL,並將結果寫入新數據幀。 什麼,我需要/想是創建一個新的5列數據幀:
df.result <- data.frame(fullurl = as.character(),baseurl=as.character(), firstlevel = as.character(), secondlevel=as.character(),thirdlevel=as.character(),classificaiton=as.character())
調用一個「應用」家庭功能在spark.data.url.clean$url
和結果寫入新的數據幀df.result
使得第一列(fullurl
)將與相關spark.data.url.clean$url
被填充,第2至5列將與相關結果進行填充從應用
unlist(strsplit(url,"/"))
- 從導致服用只有第一,第二,第三和第四個元素矢量並將其放入第一,第二,第三和第四列df.result
終於把新數據幀列df.result$classificaiton
很抱歉的併發症spark.data.url.clean$classes
,讓我知道如果有什麼需要進一步清除。
這不回答這個問題。 – Heroka