2015-05-03 115 views
3

過去,我使用urllib2庫從網站獲取源代碼。但是,我注意到,對於我一直在嘗試使用的最新網站,我無法在源代碼中找到所需的信息。如何刮AJAX網站?

http://www.wgci.com/playlist是我一直在尋找的網站,我想獲得最近播放的歌曲和最近歌曲的播放列表。我基本上想要複製並粘貼網站上可見的顯示文本並將其放入字符串中。或者,能夠訪問以明文形式保存這些值的元素並通常使用urllib2來獲得它們會很好。無論如何要做這些事情之一?

謝謝親切。

回答

3

您要廢止的網站使用ajax調用來填充其數據頁面。 你有2種方式,從它報廢數據:

  • 使用支持JavaScript的(例如ZombieJS)無頭的瀏覽器,而報廢產生的輸出,但這是複雜的,矯枉過正
  • 瞭解如何他們的API工作,並直接調用,這是更簡單。

使用Chrome開發工具(網絡選項卡)在瀏覽其網站時查看呼叫。

例如,對於一個給定流的最後播放的歌曲列表是JSON提供 http://www.wgci.com/services/now_playing.html?streamId=841&limit=12

+0

這正是我需要的!考慮到Clear Channel在美國廣播市場上的壟斷地位,我可以將其擴展到其他電臺。非常感謝你。 – user3835980