2014-04-08 60 views

回答

2

檢查單擊按鈕的動作是否執行。它是否調用Javascript函數?這是否會對後端進行HTTP調用?如果是這樣,你的機器人應該這樣做,而不是屏幕抓取第一頁。如果沒有,它只是玩頁面的DOM來在屏幕上顯示一個項目?

1

你所要尋找的數據來自某種後端的,所以如果你在瀏覽器的開發者工具在頁面去看看時,你通常可以找出爲了得到什麼腳本調用數據。

有可能使這更難(這是一些網站來保護自己免受刮傷)。通常情況下,如果您處於這種情況,您所做的事情並不完全合法或不錯。但從技術上講,這非常有趣,所以在這裏。

前進的最好方法是運行在真正的瀏覽器的網站(如PhantomJS,或Chrome),並使用類似的webdriver的框架來模擬瀏覽器交互。通過這種方式,您可以將大部分數據通常拖出。

如果你發現你的ip被封鎖,你可以使用Tor和使用多個實例的動態打到網站...但要確保你很好地詢問網站所有者,如果你允許這樣做那當然。