2015-02-09 119 views
2

到目前爲止,我在網絡抓取方面的大多數經驗都相當簡單易懂。發送請求,下載HTML,並提取所需的信息。目前,我有興趣從Spotify Web應用程序中挖掘頂級遊戲數據。這些數據不能通過他們的API訪問,但在瀏覽不同的藝術家頁面時可以看到。 https://play.spotify.com/artist/2cCUtGK9sDU2EoElnk0GNB使用Python刮取Web應用程序

是,如何在幕後生成我的問題這個數據是有可能刮這樣的數據:

例如,國家的頂級播放的曲目可以在這個鏈接找到?

回答

3

的數據生成動態(下載HTML不會做特技)與FLEX在前端和什麼似乎像C++/Python的後端上(根據this)。 無論如何,如果你需要刮取JavaScript生成的內容,這將是一個艱難和痛苦的屁股,因爲它比刮動靜態網站要複雜得多。

,我建議您選擇使用PhantomJS無頭WebKit的腳本化與JS API)或Selenium自動化瀏覽器測試/刮)。

+0

目前使用Firebug檢查頁面,並且我正在查找的數據在任何HTML標記中都找不到。大多數動態生成的網站仍然允許一個人查看標籤之間的內容,這似乎很奇怪,沒有任何東西顯示在這個網站上。 – 2015-02-09 21:10:13

+1

嘗試使用「選擇一個元素來檢查它」工具來查找HTML標記。 – Raito 2015-02-09 21:50:48