我需要下載以下網頁:http://m.10bet.com/#leage_panel#10096網站刮:等待網站加載完全地
這是一個體育競猜頁面,我需要引號。所以,首先這看起來很簡單。然而,這裏是發生了什麼(你可以用如檢查該瀏覽器的開發者工具):
- 打開URL
- 在頁面加載的是隨後調用一個Ajax請求檢索報價初始HTML
- 但是,引用包含在json中,但是它們被obfruscated,因此無法直接從ajax調用直接解析它們。另外,該網頁的JavaScript也是obfruscated。所以沒有機會直接從請求中讀取引號。
取而代之,我需要使用能夠評估javascript的無頭瀏覽器。 HtmlUnit for java是不夠的,因爲它不提供強大的JavaScript功能。因此PhantomJS與CasperJS結合是我目前的選擇。我使用以下腳本來應用CasperJS:
var casper = require('casper').create();
casper.start('http://m.10bet.com/#leage_panel#10096', function() {
var url = 'http://m.10bet.com/#leage_panel#10096';
this.download(url, '10bet.html');
});
casper.run(function() {
this.echo('Done.').exit();
});
但是,此腳本不加載完整頁面。只是inital頁面。如何在瀏覽器中顯示完整的網頁?
我對這些工具並不熟悉,但可以將代碼附加到'domready'事件嗎?這可能會做到。 – halfer