創建表自從我開始,使用R <不久前,我發現這個網站,幫助我建立我的劇本是非常有用的。我再次遇到了一個我無法在任何地方找到答案的挑戰。這是我的問題:在我的數據中,我有一列在每一行中包含不同的URL。在每個URL中都有我想要提取的特定信息。目前我在excel中做這件事,因爲我被告知在R中不可能做,並且沒有功能可以做到這一點。在數據框中搜索的獨特價值,並與他們
的URL看起來像這個例子中的格式,它會在 「源」 列
http://www.googleclick.com?utm_source=ADX&ID56789
http://www.googleclick.com?utm_source=ADW&ID56009
http://www.googleclick.com?utm_source=ADWords&ID53389
是的URL的一部分被發現重視我是「utm_source = ADX」位。我的數據看起來是這樣的:
用戶/來源
1/http://www.googleclick.com?utm_source=ADX&ID56789
2/http://www.googleclick.com?utm_source=ADW&ID56009
3/http://www.googleclick.com?utm_source=ADWords&ID53389
我需要做的是從URL捕獲utm_source和調換信息變換爲不同的列,示例如下:
用戶/來源/ utm_source
1/googleclick/ADX & ID56789
2/googleclick/ADW & ID56009
3/googleclick/ADWORDS & ID53389
因此,在本質我需要R鍵在整個數據幀搜索的值「 utm_source =「,一旦它找到了它們,我希望它將」utm_source =「值轉換爲列名,並將每個單獨行中的」=「後面的所有信息複製到該列中。我知道「grep」是一個函數,用於查找datafreme中的特定信息,例如數據< - total [grepl(「utm_source」,total $ Source),]。這會給我所有包含單詞「utm_source」的行,但我需要的是「utm_source」之後的信息。通常我的數據可以有多達500.000行。目前,我使用excel函數「文本到列」來實現此目的,我基本上將URL分成幾個小部分,並保留我需要的列,但這可能是一個非常混亂而漫長的過程。
有沒有辦法修改grepl函數來滿足我需要的標準?
如果有人說某件事在R中是不可能的,那就不要懷疑它們。如果他們說在Excel中可能,運行! –
:))))我知道,我知道Excel並不是真正的數據統計學家的軟件。 –
Excel有其價值,但對於數據分析來說,R要強得多。 –