2013-07-29 42 views
-3

我正在尋找一個包裝/方式,可以讓我從各種網站下載索引作品。 索引組合更改很少,很容易獲得,但我無法在網上找到任何可用的CSV。下載索引作品與R

我該如何加載說CAC 40的定義?

PS:我在乎什麼名/ ISIN/sicovam沒有真正在索引

+5

這個問題似乎是題外話,因爲它是關於一個數據源的請求;不是關於編程。 –

+0

廢話見bellow ... – statquant

+1

即使我確實承認它是一個編程問題,它仍然應該被關閉,因爲:「詢問代碼的問題必須顯示對被解決問題的最低限度理解,包括嘗試解決方案,爲什麼他們沒有'工作,並預期的結果。另見:[堆棧溢出問題清單](http://meta.stackexchange.com/questions/156810/stack-overflow-question-checklist)「 –

回答

3

的權重可以找到CAC40在維基百科的組成,並下載和處理與包裝XML

函數readHTMLTable()特別有用,因爲它可以查找並解析頁面上的所有表。在這種情況下,相關表格是第二個,因此代碼中的索引爲[[2]]。嘗試:

library(XML) 
url <- "http://en.wikipedia.org/wiki/CAC_40" 
dat <- readHTMLTable(url)[[2]] 

head(dat[, 1:3]) 
     Company   ICB Sector Ticker symbol 
1   Accor    hotels   AC 
2 Air Liquide commodity chemicals   AI 
3  Alstom industrial machinery   ALO 
4 ArcelorMittal    steel   MT 
5   AXA full line insurance   CS 
6 BNP Paribas    banks   BNP 

相同的代碼也適用於富時100:

url <- "http://en.wikipedia.org/wiki/FTSE_100_Index" 
dat <- readHTMLTable(url)[[2]] 
head(dat[, 1:3]) 
        Company   Sector Market cap (£bn) 
1  Royal Dutch Shell  Oil and gas     135 
2      HSBC   Banking     129 
3      BP  Oil and gas     85 
4   Vodafone Group  Telecomms     83 
5   GlaxoSmithKline Pharmaceuticals     73 
6 British American Tobacco   Tobacco     69 
+0

這正是我想要的!謝謝 – statquant