scrapy避免爬蟲登出

我使用scrapy庫來幫助爬行網站。scrapy避免爬蟲登出

該網站使用身份驗證，我可以使用scrapy成功登錄到該頁面。

頁面有一個URL會註銷用戶並銷燬會話。

如何確保scrapy在爬網時避免註銷頁面？

如果您正在使用Link Extractors，只是不想遵循這個特殊的「註銷」鏈接，你可以設置deny屬性：

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]

另一種選擇是檢查response.url您的蜘蛛parse方法內：

def parse(self, response): 
    if 'logout' in response.url: 
     return 

    # extract items

希望有所幫助。

2013-07-11 05:11:01 alecxe

回答