2
我想使用scrapy爬行網站,但沒有該網站的網站地圖或網頁索引。如何使用scrapy抓取網站的所有頁面?如何抓取一個網站只有域名網址scrapy
我只需要下載網站的所有頁面而不需要提取任何項目。我是否只需要設置蜘蛛規則中的所有鏈接?但我不知道scrapy是否會以這種方式避免複製網址。
我想使用scrapy爬行網站,但沒有該網站的網站地圖或網頁索引。如何使用scrapy抓取網站的所有頁面?如何抓取一個網站只有域名網址scrapy
我只需要下載網站的所有頁面而不需要提取任何項目。我是否只需要設置蜘蛛規則中的所有鏈接?但我不知道scrapy是否會以這種方式避免複製網址。
我只是自己找到答案。使用CrawlSpider類,我們只需要在SgmlLinkExtractor函數中設置變量allow =()。正如文檔所述:
allow(正則表達式(或列表)) - (絕對)url必須匹配才能提取的單個正則表達式(或正則表達式列表)。如果沒有給出(或空),它將匹配所有鏈接。
http://doc.scrapy.org/en/latest/topics/link-extractors.html#topics-link-extractors
爲什麼不只是循環瀏覽網站上的所有鏈接,並抓取? – enginefree
@enginefree遍歷所有鏈接是可行的方式,但我不知道如何使用scrapy進行設置。 –
如果你不想要報廢項目,那麼爲什麼你想使用scrapy。只需使用任何網站下載器,它會爲你做的一切 – user2134226