我刮一家網站,其結構是這樣的:項目緩存在Scrapy
Archive
Article 1
Authors
Author 1
Author 2
Title
Body
Comments
Comment 1
Comment 2
...
每個作者都在Authors
都有自己的個人資料頁面。問題是作者寫了多篇文章,所以當我的蜘蛛抓取該網站時,我最終一次又一次地抄襲了同一作者的個人資料。
我如何使用Scrapy緩存作者配置文件?
我覺得scrapy知道以前訪問過的鏈接,所以應該不抓取已經抓取的頁面 – user2134226