2012-07-03 102 views
1

正是已加入我需要抓取一個網站,基本上有像這樣的鏈接:刮自去年刮

www.website.com/link/page_1.html 
www.website.com/link/page_2.html 
www.website.com/link/page_3.html 
... 

的抄襲內容是通過管道直接進入數據庫。

這是很容易告訴Django是這樣的:

if item exists do not insert it, otherwise insert it 

但有什麼辦法湊自去年刮已添加鏈接的休息嗎?

例如,在website.com插入新項目:

/link/page_1.html becomes /link/page_2.html 
new items populate /link/page_1.html 

在這一點上,我需要什麼告訴scrapy只是擦破自去年刮新增加的項目?

回答