2016-05-23 23 views
3

我想從citibike刮表:https://s3.amazonaws.com/tripdata/index.html如何在R中刪除javascript表?

我的目標是讓zip文件的網址全部一次,而不是手動輸入所有的日期,並下載一個每次。由於網頁每月更新一次,每次運行該功能時,我都希望能夠獲取所有最新的數據文件。

我首先嚐試使用Rvest和XML包,然後意識到該網頁包含html和由javascript函數生成的表。這就是問題所在。

真的很感謝任何幫助,請讓我知道,如果我可以提供進一步的信息。

+0

您可能需要使用[RSelenium](https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-basics.html)。 – r2evans

回答

1

如果我去https://s3.amazonaws.com/tripdata/(只是根,沒有index.html)我得到一個簡單的XML文件。如果要解析XML,則相關元素爲Key(大寫K,小寫e,y),但我只需搜索純文本,即:忽略XML,將其視爲簡單文本文件,獲取<Key>之間的每個字符串和</Key>認爲它是文件名,並且以https://s3.amazonaws.com/tripdata/爲前綴來獲取它。

第一個條目看起來就像是一樣(170 MB),所以你可以單獨使用它。