當試圖使用scrapy查看或刪減http://www.kw.com/kw/agent/johndoucette(或該域上的大多數頁面)時,我找回空白頁。查看頁面源代碼會返回一堆隱藏的javascript,但就是這樣。Scrapy正在獲取空白頁的javascript
我已經嘗試了很多不同的用戶代理,代理,沒有代理,設置等(如scrapy view http://www.kw.com/kw/agent/johndoucette -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4302357130 Safari/537.36"
從here)這不是我的設置 - 這是從scrapy外殼視圖(響應)命令上重現一個新的安裝。我只是不知道如何忽略這個腳本。
有什麼辦法可以解決這個問題嗎?
因此,不需要跳過javascript,而是需要與它進行交互?看起來很奇怪 - 對於顯然不希望被抓取或編入索引的所有主要網站來說,這似乎是一個非常簡單的解決方法。 – Xodarap777
它可能是這樣的,或者它可能是諸如報告的瀏覽器功能組合與應該在那裏的那些組合的事情。這可能是它如何發送標題。這可能是很多事情,因爲我真的不熟悉Incapsula。 – Rejected