Python Scrapy請求方法不起作用

-3

我正在嘗試使用下面的Scrapy的Request方法，但它不會調用callbackself.link_to_problem。 URL的所有印刷正確的，當我打電話print path，我也嘗試打開這些網址在我的瀏覽器和格式正確無誤。有人可以確定代碼中是否有問題？Python Scrapy請求方法不起作用

from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 
from scrapy.http.request import Request 
import scrapy 

def parse_item(self, response): 
    for link in response.xpath("//div[@id='siteTable']//div[@class='entry unvoted']/p[@class='title']/a/@href").extract(): 
     path = "https://www.reddit.com" + str(link) 
     print path 
     yield Request(path, callback=self.link_to_problem, errback = self.error_print) 

def link_to_problem(self, response): 
     print response 
     print "------------------------------------------------------------------------------------------"

來源

2017-04-14 RSOC 119

是'link_to_problem'叫？你檢查過嗎？提問時也要小心謹慎。 – Mani

沒有'link_to_problem'沒有被調用，我爲什麼認爲可能是我如何調用Request方法有問題。 –

我看不出有什麼問題的代碼，請仔細查看項目設置和代碼。或者嘗試刪除errback。 – Mani

即使發佈的代碼是正確的（乍一看似乎對我來說），您的刮板很可能無法正常工作。

原因/問題：有沒有User-Agent頭集，看起來像一個真正的瀏覽器的所有客戶端的reddit.com塊的請求。

Scrapy默認發送'scrapybot'作爲用戶代理，並將因此被阻止。

解決方案：在您的請求中設置User-Agent標頭，就像真正的瀏覽器所做的那樣。

這可以通過添加以下行到你scrapy項目的settings.py文件來完成。

USER_AGENT = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'

來源

2017-04-17 10:19:20 rrschmidt

Python Scrapy請求方法不起作用

回答

相關問題