如何在R中刪除javascript表？

我想從citibike刮表：https://s3.amazonaws.com/tripdata/index.html 如何在R中刪除javascript表？

我的目標是讓zip文件的網址全部一次，而不是手動輸入所有的日期，並下載一個每次。由於網頁每月更新一次，每次運行該功能時，我都希望能夠獲取所有最新的數據文件。

我首先嚐試使用Rvest和XML包，然後意識到該網頁包含html和由javascript函數生成的表。這就是問題所在。

真的很感謝任何幫助，請讓我知道，如果我可以提供進一步的信息。

2016-05-23 v15

您可能需要使用[RSelenium]（https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-basics.html）。 – r2evans

如果我去https://s3.amazonaws.com/tripdata/（只是根，沒有index.html）我得到一個簡單的XML文件。如果要解析XML，則相關元素爲Key（大寫K，小寫e，y），但我只需搜索純文本，即：忽略XML，將其視爲簡單文本文件，獲取<Key>之間的每個字符串和</Key>認爲它是文件名，並且以https://s3.amazonaws.com/tripdata/爲前綴來獲取它。

第一個條目看起來就像是一樣（170 MB），所以你可以單獨使用它。

來源

2016-05-24 00:10:19 deamentiaemundi

如何在R中刪除javascript表？

回答

相關問題