1
正是已加入我需要抓取一個網站,基本上有像這樣的鏈接:刮自去年刮
www.website.com/link/page_1.html
www.website.com/link/page_2.html
www.website.com/link/page_3.html
...
的抄襲內容是通過管道直接進入數據庫。
這是很容易告訴Django是這樣的:
if item exists do not insert it, otherwise insert it
但有什麼辦法湊自去年刮已添加鏈接的休息嗎?
例如,在website.com插入新項目:
/link/page_1.html becomes /link/page_2.html
new items populate /link/page_1.html
在這一點上,我需要什麼告訴scrapy只是擦破自去年刮新增加的項目?
活計,你救了我!我已經閱讀了工作章節,但顯然不夠小心!乾杯 –