如何抓取一個網站只有域名網址scrapy

我想使用scrapy爬行網站，但沒有該網站的網站地圖或網頁索引。如何使用scrapy抓取網站的所有頁面？如何抓取一個網站只有域名網址scrapy

我只需要下載網站的所有頁面而不需要提取任何項目。我是否只需要設置蜘蛛規則中的所有鏈接？但我不知道scrapy是否會以這種方式避免複製網址。

爲什麼不只是循環瀏覽網站上的所有鏈接，並抓取？ – enginefree

@enginefree遍歷所有鏈接是可行的方式，但我不知道如何使用scrapy進行設置。 –

如果你不想要報廢項目，那麼爲什麼你想使用scrapy。只需使用任何網站下載器，它會爲你做的一切 – user2134226

我只是自己找到答案。使用CrawlSpider類，我們只需要在SgmlLinkExtractor函數中設置變量allow =（）。正如文檔所述：

allow（正則表達式（或列表）） - （絕對）url必須匹配才能提取的單個正則表達式（或正則表達式列表）。如果沒有給出（或空），它將匹配所有鏈接。

2013-01-12 19:24:41

回答