2013-07-11 70 views
1

我使用scrapy庫來幫助爬行網站。scrapy避免爬蟲登出

該網站使用身份驗證,我可以使用scrapy成功登錄到該頁面。

頁面有一個URL會註銷用戶並銷燬會話。

如何確保scrapy在爬網時避免註銷頁面?

回答

0

如果您正在使用Link Extractors,只是不想遵循這個特殊的「註銷」鏈接,你可以設置deny屬性:

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),] 

另一種選擇是檢查response.url您的蜘蛛parse方法內:

def parse(self, response): 
    if 'logout' in response.url: 
     return 

    # extract items 

希望有所幫助。