我想從以下URL中將最高法院法官表加載到R中。 https://en.wikipedia.org/wiki/List_of_Justices_of_the_Supreme_Court_of_the_United_States從維基百科加載表到R
我使用以下代碼:
scotusURL <- "https://en.wikipedia.org/wiki/List_of_Justices_of_the_Supreme_Court_of_the_United_States"
scotusData <- getURL(scotusURL, ssl.verifypeer = FALSE)
scotusDoc <- htmlParse(scotusData)
scotusData <- scotusDoc['//table[@class="wikitable"]']
scotusTable <- readHTMLTable(scotusData[[1]], stringsAsFactors = FALSE)
ř返回scotusTable爲NULL。這裏的目標是在R中獲得一個data.frame,我可以用它來構建一個在法庭上享有SCOTUS正義任期的ggplot。我以前有過這樣的腳本來製作一個很棒的情節,但是最近的決定在頁面上發生了一些變化,現在腳本無法運行。我通過維基百科上的HTML嘗試查找任何更改,但是我不是webdev,因此任何會破壞我的腳本的內容都不會立即顯現。
此外,R中是否有一個方法可以緩存來自此頁面的數據,因此我並不是經常引用該URL?這似乎是今後避免這個問題的理想方式。 欣賞幫助。
另外,SCOTUS在我的正在進行的業餘愛好/副項目中,所以如果還有其他的數據源比維基百科更好的話,那麼我就是耳熟能詳。
編輯:對不起,我應該列出我的依賴。我正在使用XML,plyr,RCurl,data.table和ggplot2庫。
什麼是'getURL'函數的源代碼? – Frash
http://stackoverflow.com/questions/27843659/scraping-a-complex-html-table-into-a-data-frame-in-r – Khashaa
關於你的問題,你可以考慮在開放的數據堆棧交換站點上詢問。 – Frank