6
這是scrapy的默認Dupefilter
類方法request_seen
Scrapy - 檢索蜘蛛對象在dupefilter
class RFPDupeFilter(BaseDupeFilter):
def request_seen(self, request):
fp = self.request_fingerprint(request)
if fp in self.fingerprints:
return True
self.fingerprints.add(fp)
if self.file:
self.file.write(fp + os.linesep)
雖然實現自定義dupefilter。我不能檢索這個類的spider
對象不像其他scrapy中間件
有沒有什麼辦法可以知道這是哪個對象spider
?所以我可以通過蜘蛛基礎上的蜘蛛定製它?
另外我不能只實現一個讀取網址並將其放入列表中的中間件&檢查重複項而不是自定義dupefilter。這是因爲我需要暫停/恢復抓取,需要scrapy默認情況下使用JOBDIR
設置