2013-12-13 26 views
0

嗯,我是從一個網站(純粹是在法律限制)中抓取數據。如何捕獲onload修改網頁的源代碼

的情況是,該網站有一個頁面上5個問題和答案,them.But源代碼,我按Ctrl+u是從我的Inspect element或Firefox.That firebug看到的代碼不同看到意味着該網站正在改變頁面加載的答案來欺騙周圍的人,因爲刮板人通常會抓住未經修改的代碼。正確的答案在onLoad修改頁面上。

我想要的是捕獲我在FirebugInspect element(修改的代碼)中看到的源代碼,而不是我在按Ctrl+U時看到的代碼。

我使用了其中一個抓取API,但它正在捕獲原始碼Ctrl+U

有沒有什麼解決辦法嗎?

回答

0

我建議你在onload發生之前做一個你的頁面的html日誌。這可以使用jQuery來完成。

或者使用「調試器」進行簡單的經典調試,一旦放置網頁的行被瀏覽器解釋,它將停止網頁的執行。作爲一個HTML5遊戲開發者,我通常通過控制檯進行高級日誌記錄,以瞭解什麼時候執行什麼以及執行什麼。儘管可能需要一些時間,但它可以讓你對你寫的內容有一個很好的理解,並確保優化(主要是某些東西的執行次數)和捕捉可能不明顯的錯誤。

1

在Chrome中,選擇根元素(<HTML>)和右鍵 - >複製爲HTML,粘貼的地方

[編輯]

我懷疑你正試圖明顯自動刮數據,這將無法正常工作,否則不知道該怎麼做。有一些支持JS的無頭網頁瀏覽器(例如phantom js),他們可能會伎倆。還檢查出this super user post

+0

是的我自動抓取數據 –