1
我使用scrapy庫來幫助爬行網站。scrapy避免爬蟲登出
該網站使用身份驗證,我可以使用scrapy成功登錄到該頁面。
頁面有一個URL會註銷用戶並銷燬會話。
如何確保scrapy在爬網時避免註銷頁面?
我使用scrapy庫來幫助爬行網站。scrapy避免爬蟲登出
該網站使用身份驗證,我可以使用scrapy成功登錄到該頁面。
頁面有一個URL會註銷用戶並銷燬會話。
如何確保scrapy在爬網時避免註銷頁面?
如果您正在使用Link Extractors,只是不想遵循這個特殊的「註銷」鏈接,你可以設置deny
屬性:
rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]
另一種選擇是檢查response.url
您的蜘蛛parse
方法內:
def parse(self, response):
if 'logout' in response.url:
return
# extract items
希望有所幫助。