2015-09-23 24 views
0

當試圖使用scrapy查看或刪減http://www.kw.com/kw/agent/johndoucette(或該域上的大多數頁面)時,我找回空白頁。查看頁面源代碼會返回一堆隱藏的javascript,但就是這樣。Scrapy正在獲取空白頁的javascript

我已經嘗試了很多不同的用戶代理,代理,沒有代理,設置等(如scrapy view http://www.kw.com/kw/agent/johndoucette -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4302357130 Safari/537.36"here)這不是我的設置 - 這是從scrapy外殼視圖(響應)命令上重現一個新的安裝。我只是不知道如何忽略這個腳本。

有什麼辦法可以解決這個問題嗎?

回答

1

你得到這個是因爲該網站是通過「Incapsula」提供的,該網站使用Javascript測試,然後允許您繼續瀏覽網頁。由於Scrapy不處理JavaScript,因此您沒有更進一步。

要查看正在發生的事情,請打開Chrome瀏覽器,轉到隱私設置,並停用Cookie和Javascript。

該網站正在積極嘗試阻止抓取,這清楚地表明他們不希望被抓取。

+0

因此,不需要跳過javascript,而是需要與它進行交互?看起來很奇怪 - 對於顯然不希望被抓取或編入索引的所有主要網站來說,這似乎是一個非常簡單的解決方法。 – Xodarap777

+0

它可能是這樣的,或者它可能是諸如報告的瀏覽器功能組合與應該在那裏的那些組合的事情。這可能是它如何發送標題。這可能是很多事情,因爲我真的不熟悉Incapsula。 – Rejected