2012-12-10 159 views
2

我的公司正在使用一個網站,託管我們所有的常見問題和客戶問題。我們計劃通過並清除所有舊數據並輸入新數據,並且該服務沒有備份或歸檔選項,以避免我們不想再出現的問題。刮動態頁面內容phantomjs

我已經通過並嘗試使用perl和機械化來瀏覽網站,但我錯過了頁面上的客戶評論,因爲它們是通過ajax加載的。我已經看過phantomjs,並可以使用示例頁面將頁面保存爲圖像,但是,我希望獲取頁面的完整頁面html轉儲,但無法弄清楚方法。我用這個例子的代碼在我們的網站

var page = new WebPage(); 

page.open('http://espn.go.com/nfl/', function (status) { 
//once page loaded, include jQuery from cdn 
page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() { 
//once jQuery loaded, run some code 
//inserts our custom text into the page 
page.evaluate(function(){$("h2").html('Many NFL Players Scared that Chad Moon Will Enter League');}); 
//take screenshot and exit 
page.render('espn.png'); 
phantom.exit(); 

}); 

}); 

是否有使用phantomjs的方式,我可以得到的數據的一整頁轉儲,類似於如果我沒有在Chrome瀏覽器中查看源代碼?我可以用perl +機械化來做到這一點,但不知道如何使用phantomjs來做到這一點。

+0

重複刮,看http://stackoverflow.com/questions/12450868/how-到打印的HTML源到控制檯與 - phantomjs/12469284。 –

回答

5

您可以使用page.content得到完整的HTML DOM