我想刮這樣的表http://www.oddsportal.com//hockey/usa/nhl/carolina-hurricanes-ottawa-senators-80YZhBGC/ 我想刮博彩公司和賠率。問題是我不知道什麼樣的桌子,也不知道怎麼刮。與R刮xml/javascript表
這些線程可能會幫助我(Scraping javascript with R或What type of HTML table is this and what type of webscraping techniques can you use?),但我會很感激,如果有人能指向我在正確的方向或更好,但在這裏給說明。
那麼什麼樣的表是那個賠率表,是否有可能用R刮,如果是的話,怎麼樣?
編輯: 我應該更清楚。我已經用R讀了一段時間的數據,可能不需要基礎知識的幫助。經進一步檢查那個表實際上是JavaScript,這是問題,我需要
看看[刮HTML表格分爲R數據幀使用XML封裝(http://stackoverflow.com/questions/ 1395528/scraping-html-tables-into-r-data-frames-using-the-xml-package) – rrs
我已經非常廣泛地閱讀了該線程,但它並未幫助我處理該特定表。使用這些說明,我已經輕鬆地刮掉了其他幾張桌子。例如,如果我用表< - readHTMLTable(theurl)讀取url,主賠率表不在那裏。如果我仔細檢查oddsportal來源,我也無法找到這些數字,但在您提供的鏈接中使用的巴西維基百科表格中並非如此。恐怕我可能需要更多幫助 – lunatus
使用javascript/web dev調試器來查看頁面正在發出什麼請求 - 它可能只是一個json數據請求,並且不需要進行刮取,您的R可以直接獲取JSON數據。也許。它對我來說只是緩慢而可怕的。 – Spacedman