2013-01-05 113 views
2

我想使用scrapy爬行網站,但沒有該網站的網站地圖或網頁索引。如何使用scrapy抓取網站的所有頁面?如何抓取一個網站只有域名網址scrapy

我只需要下載網站的所有頁面而不需要提取任何項目。我是否只需要設置蜘蛛規則中的所有鏈接?但我不知道scrapy是否會以這種方式避免複製網址。

+0

爲什麼不只是循環瀏覽網站上的所有鏈接,並抓取? – enginefree

+0

@enginefree遍歷所有鏈接是可行的方式,但我不知道如何使用scrapy進行設置。 –

+0

如果你不想要報廢項目,那麼爲什麼你想使用scrapy。只需使用任何網站下載器,它會爲你做的一切 – user2134226

回答

2

我只是自己找到答案。使用CrawlSpider類,我們只需要在SgmlLinkExtractor函數中設置變量allow =()。正如文檔所述:

allow(正則表達式(或列表)) - (絕對)url必須匹配才能提取的單個正則表達式(或正則表達式列表)。如果沒有給出(或空),它將匹配所有鏈接。

http://doc.scrapy.org/en/latest/topics/link-extractors.html#topics-link-extractors