2010-12-10 100 views
1

link text如何刮這個JavaScript網站的圖像?

這是一個數字圖書庫的鏈接。有向前和向後的按鈕來查看下一頁和上一頁。我想自動下載這些圖片。我曾經在Python中使用urllib,但網站很快就放棄了它。我只是想下載這本書作爲學習目的,所以任何人都可以推薦一些編程工具,例如網頁蜘蛛,它可以模擬翻頁和自動獲取圖片的過程。謝謝!

回答

0

該網站使用了JavaScript,因此你不能輕易與Python刮它。兩點建議:

  1. 找出點擊下一個按鈕時正在做什麼請求。你可以用像螢火蟲這樣的工具來做到這一點。你可能會發現你可以在不處理任何JS的情況下刮掉它。

  2. 使用諸如Selenium之類的工具,它允許您執行JS的瀏覽器腳本。

爲站點阻擋你,有兩種方法,以減少被阻塞的機會:

  1. 更改您的用戶代理到一個普通的瀏覽器,例如中Firefox瀏覽器。

  2. 在訪問下一張圖片之間添加隨機延遲,使您看起來更像人。

0

你需要一個真正的瀏覽器來處理這種(種)的網站。硒是一種選擇,但它更適合於Web測試。網絡抓取iMacros真的很好。我有一個快速測試,它適用於Firefox/IE的iMacros。

Chris