網站刮：等待網站加載完全地

我需要下載以下網頁：http://m.10bet.com/#leage_panel#10096 網站刮：等待網站加載完全地

這是一個體育競猜頁面，我需要引號。所以，首先這看起來很簡單。然而，這裏是發生了什麼（你可以用如檢查該瀏覽器的開發者工具）：

打開URL
在頁面加載的是隨後調用一個Ajax請求檢索報價初始HTML
但是，引用包含在json中，但是它們被obfruscated，因此無法直接從ajax調用直接解析它們。另外，該網頁的JavaScript也是obfruscated。所以沒有機會直接從請求中讀取引號。

取而代之，我需要使用能夠評估javascript的無頭瀏覽器。 HtmlUnit for java是不夠的，因爲它不提供強大的JavaScript功能。因此PhantomJS與CasperJS結合是我目前的選擇。我使用以下腳本來應用CasperJS：

var casper = require('casper').create(); 

casper.start('http://m.10bet.com/#leage_panel#10096', function() { 
    var url = 'http://m.10bet.com/#leage_panel#10096'; 
    this.download(url, '10bet.html'); 
}); 

casper.run(function() { 
    this.echo('Done.').exit(); 
});

但是，此腳本不加載完整頁面。只是inital頁面。如何在瀏覽器中顯示完整的網頁？

來源

2013-11-26 toom

我對這些工具並不熟悉，但可以將代碼附加到'domready'事件嗎？這可能會做到。 – halfer

該腳本看起來像一個很好的開始，但只要您的（HTML）頁面加載，（CasperJS）腳本就會停止，因爲您還沒有給出任何更多說明。解決這個問題的最原始的方法是去睡覺了幾秒鐘，然後刮頁：

var casper = require('casper').create(); 
var fs=require('fs'); 

casper.start('http://m.10bet.com/#leage_panel#10096', function() { 
    this.wait(2000, function() { 
     fs.write("10bet.html", this.getHTML()); 
    }); 
}); 

casper.run();

一個2000毫秒超時是原油有兩個原因：

如果數據加載比您浪費時間更快。
如果加載速度較慢，則腳本不起作用。

因此，最好在頁面上標識出你想要的東西，然後使用Casper的waitForXXX()函數之一。從這裏開始查看API文檔：http://casperjs.readthedocs.org/en/latest/modules/casper.html#waitfor

另一點，我猜你實際上並不想要整個HTML頁面，只是其中的數據。 getHTML()需要一個參數來過濾收到的內容。例如。在你的情況下，getHTML('#league_block')可能會更有用。再次參閱API文檔以獲得更多的想法。

來源

2013-11-27 05:20:33

嘿達倫！你太快了。我只想發表你的建議作爲我的問題的答案。我使用了waitForResource（...）。完美的工作。謝謝你的幫助！ :) – toom

網站刮：等待網站加載完全地

回答

相關問題