link text如何刮這個JavaScript網站的圖像?
這是一個數字圖書庫的鏈接。有向前和向後的按鈕來查看下一頁和上一頁。我想自動下載這些圖片。我曾經在Python中使用urllib,但網站很快就放棄了它。我只是想下載這本書作爲學習目的,所以任何人都可以推薦一些編程工具,例如網頁蜘蛛,它可以模擬翻頁和自動獲取圖片的過程。謝謝!
link text如何刮這個JavaScript網站的圖像?
這是一個數字圖書庫的鏈接。有向前和向後的按鈕來查看下一頁和上一頁。我想自動下載這些圖片。我曾經在Python中使用urllib,但網站很快就放棄了它。我只是想下載這本書作爲學習目的,所以任何人都可以推薦一些編程工具,例如網頁蜘蛛,它可以模擬翻頁和自動獲取圖片的過程。謝謝!
該網站使用了JavaScript,因此你不能輕易與Python刮它。兩點建議:
找出點擊下一個按鈕時正在做什麼請求。你可以用像螢火蟲這樣的工具來做到這一點。你可能會發現你可以在不處理任何JS的情況下刮掉它。
使用諸如Selenium之類的工具,它允許您執行JS的瀏覽器腳本。
爲站點阻擋你,有兩種方法,以減少被阻塞的機會:
更改您的用戶代理到一個普通的瀏覽器,例如中Firefox瀏覽器。
在訪問下一張圖片之間添加隨機延遲,使您看起來更像人。
wget的是一個優秀的網絡蜘蛛
你需要一個真正的瀏覽器來處理這種(種)的網站。硒是一種選擇,但它更適合於Web測試。網絡抓取iMacros真的很好。我有一個快速測試,它適用於Firefox/IE的iMacros。
Chris