我想抓取來自TripAdvisor網站的評論。由於網站中的大部分圖像都是動態加載的,我使用Splash JavaScript渲染服務來生成頁面。從TripAdvisor抓取動態加載圖像
問題是一些圖像被加載,有些則不是。
這裏是檢討,我要爬網的網址: https://www.tripadvisor.com.sg/ShowUserReviews-g294265-d1770798-r446535418-Marina_Bay_Sands-Singapore.html
我已經嘗試設置啓動等待時間爲10秒(最大),結果還是一樣。
這裏是我的代碼,在飛濺使用:
function main(splash)
local url = splash.args.url
assert(splash:go(url))
assert(splash:wait(10))
splash:set_viewport_full()
return {
html = splash:html(),
png = splash:png(),
har = splash:har(),
}
end
這裏是由飛濺產生的結果圖像(Croped出頁腳部分):Click to view the image
正如你所看到的,所有其他加載動態加載的圖像除了評論中的圖像(它們應該在紅色的矩形中)。我檢查過html,發現img標籤已經存在,但是它們的src屬性是「.../x.gif」,它是一個像素圖像,而不是實際圖像的URL。
有沒有人有這樣的問題,或有一個想法,爲什麼它是?