網頁荷蘭政府宣揚它給出了一個網站上的補貼:從Java刮數據生成有R
http://www.hetlnvloket.nl/databank-eu-subsidiegegevens-2012#
但是,它不是簡單明瞭,從網站獲得的數據。如果你到現場,選擇'Gemeenschappelijk Landbouw Beleid'(普通農業政策,歐盟補貼計劃),然後在頁面底部按'zoek'(zoek表示'搜索'),你會從100個條目中獲得一張表。但是我不能把它寫進R.看起來這個頁面是在你按'zoek'後用JavaScript生成的。
我的問題是:
如何湊這個從網站?
如何得到其他900頁
我要求政府給我這個XLS數據(總共有90K記錄),但他們不會,對於隱私的原因」。但這樣沒人可以檢查。我不喜歡那樣。 ;-)
你確定你允許刮這些數據嗎?鑑於你在2)中陳述的內容,我相信你沒有。 – Gimby
我懷疑隱私是一個不瞭解開放治理和信息自由的人,我認爲這兩者都是荷蘭人通常比較擅長的。 XLS,但?您需要一個API,而不是專有的文件格式。 – halfer
它看起來像通過AJAX獲得的數據,應該是可以抓取的。如果你只是在數據快照之後,看看導入。io - 他們的桌面爬蟲可能會提供幫助。 – halfer