Q

遇到trustAsHtmlFilter爬行

2016-03-02 43 views 0 likes

0

時候當我試圖抓取此網頁：使用遇到trustAsHtmlFilter爬行

scrapy shell url

http://www.cvs.com/shop/household-grocery/electronics/computer-supplies/avery-pin-fed-printers-computer-label-0-93-in-x-3-in-white-5000-pack-prodid-934273?skuId=934273

然後做一個

view(response)

我看到頁面上顯示trustAsHtmlFilter。頁面佈局在那裏，但是沒有顯示所有的內容。所以我猜這個網站使用這個過濾器來阻止我的抓取工具。

我做過谷歌它，它似乎像這個過濾器來自AngularJS？不知道這一點

所以我的問題是：

什麼可能是觸發此過濾器的原因是什麼？我幾天前爬過這個頁面，當時很好。
有沒有辦法解決這個問題？

謝謝！

2016-03-02 user2628641

+0

您是否嘗試過在請求中使用'user agent'？ 'scrapy shell -s USER_AGENT ='user agent''http：// www.example.com'' – Rahul

+0

我用過它，仍然被該過濾器阻止 – user2628641

A

回答

0

如果你在沒有javascript的瀏覽器中打開url，你會得到相同的「錯誤」。您正在尋找的內容是使用javascript動態生成的。所以你需要能夠處理js來獲取內容。

第一個選項通常嘗試識別由javascript生成的請求。如果你能做到這一點，你可以從scrapy發送相同的請求。如果你不能這樣做，下一個選項通常是使用一些與JavaScript /瀏覽器仿真或類似的包。像ScrapyJS或Scrapy + Selenium。

2016-03-02 23:26:20 Djunzu

相關問題

11. Python網絡爬行和存儲到MySQL
12. 得到錯誤顯示java.lang.NullPointerException爬行
13. 從Ruby轉到Python：爬行器
14. 爬行使用CasperJS
15. 爬行WP7市場
16. Scrapy爬行0頁
17. 搜索爬行「Bot」？
18. Scrapy條件爬行
19. Scrapy不是爬行
20. 爬行使用Python
21. 反爬行器 - Python
22. 在pdf內爬行
23. PHP爬行方法
24. nutch爬行路徑
25. scrapy加速爬行
26. 谷歌爬行AJAX
27. Jsessionid干擾爬行
28. Scrapy不是爬行
29. Nutch問題執行爬行
30. Matlab imagesc爬到OpenCV