我想從40k URL中提取日期。 URL是這樣的:從字符串提取日期(URL)
1) ht-p://mashable.com/2014/09/19/shonda-rhimes-new-york-times/
2) http://mashable.com-2014/11/02/friendly-robbers-snl-sketch/
我使用這個:
ymd(as.numeric(gsub("\\D", "", df$URL)))
後就正常了1分或2的記錄,但與40K記錄它給了我
警告消息: 4714未能解析。它給這些4714價值的NAs。
我錯過了什麼嗎?
是存在於URL任何NUM比退出日期其他.. –
試'YMD(as.numeric(GSUB(」。* /(\\ d {4}/\\ d {2}/\ \ d {2})/.*「,」\\ 1「,df $ URL)))' –
即使使用40k大小的網址向量,您的主要解決方案也能正常工作。 'urls = rep(c(「ht-p://mashable.com/2014/09/19/shonda-rhimes-new-york-times/」,「http://mashable.com-2014/11/ 02/friendly-robbers-snl-sketch /「),20000)' 'dates = ymd(as.numeric(gsub(」\\ D「,」「,url)))'' –