2011-05-19 25 views
1

看看http://www.quibids.com/的任何現場拍賣我想刮掉似乎由JavaScript計時器更新的出價記錄。當我在Chrome中檢查元素時,它會自動更新源代碼。有屏幕抓取的方法嗎?如果它很重要,我正在使用Ruby來做到這一點。我想避免的只是每秒鐘在該頁面上敲擊。你如何刮阿賈克斯推送網站

+4

檢查您的瀏覽器正在製作的AJAX請求,並模仿它們。 – 2011-05-19 17:51:25

+0

如果您打算刮這個網站是爲了「比其他競標者/機器人獲得優勢」,我會非常小心。這個網站看起來像Swoopo的克隆人(/姐妹)。這樣的網站是一個**幾乎沒有法律** *騙局*,因此,我會避免浪費你的錢出價:http://www.codinghorror.com/blog/2008/12/profitable-until-deemed-illegal.html – scunliffe 2011-05-19 18:17:19

+0

@dimitrov - 抱歉 - 我實際上不知道我必須去接受答案。我回去接受了。 – 2011-05-23 22:42:10

回答

1

你可以使用一個可以執行javascript的瀏覽器引擎,比如webkit(它有一個腳本包裝器,WebkitDriver)。

或者通過類似螢火蟲的工具來檢查javascript定時器的功能。可能它正在發出一個AJAX請求來獲取更新的數據,你可以直接調用這些AJAX URL。

+1

有一個完全腳本化的無頭瀏覽器名爲HTMLUnit,但它是用Java編寫的。 – Piskvor 2011-05-23 13:26:07

+0

webkit也是腳本化的,可以無人運行 – hoju 2011-05-27 08:11:53

+0

不知道我們是否使用「腳本化」的相同定義 - 我不知道基於webkit的瀏覽器可以由另一個程序完全編程控制,無需用戶干預*;但是,我並不是說自己知道所有事情;)你能分享一個這樣的項目的鏈接嗎? – Piskvor 2011-05-27 08:17:58