Q

刮自去年刮

2012-07-03 102 views 1 likes

1

正是已加入我需要抓取一個網站，基本上有像這樣的鏈接：刮自去年刮

www.website.com/link/page_1.html 
www.website.com/link/page_2.html 
www.website.com/link/page_3.html 
...

的抄襲內容是通過管道直接進入數據庫。

這是很容易告訴Django是這樣的：

if item exists do not insert it, otherwise insert it

但有什麼辦法湊自去年刮已添加鏈接的休息嗎？

例如，在website.com插入新項目：

/link/page_1.html becomes /link/page_2.html 
new items populate /link/page_1.html

在這一點上，我需要什麼告訴scrapy只是擦破自去年刮新增加的項目？

2012-07-03 marius_5

A

回答

1

最新的scrapy支持序列化請求到磁盤[1]，並且還有Rolando的Redis集成[2]。

2012-07-03 22:08:30

+0

活計，你救了我！我已經閱讀了工作章節，但顯然不夠小心！乾杯 –

相關問題

11. 在python中颳去網頁
12. 用Python颳去Web數據
13. 在Java中颳去網站
14. 從NHL.com上颳去數據
15. 用xpath在Tripadvisor刮刮棗
16. Scrapy爬行但不刮刮
17. Java刮刮卡演示
18. 颳去需要驗證的網站
19. 颳去div標籤裏面的文字
20. 用Scraperwiki（Python）颳去Google Chart腳本
21. 颳去本地加載的圖像
22. 使用opengraph和curl颳去新頁面
23. 颳去網站鏈接 - 看不到href
24. 使用getURL颳去https網站
25. 從網頁上颳去內容
26. 在404中颳去Coursera結果
27. 颳去網址不變的網站
28. 問題與BS4颳去網站
29. 用lxml和python颳去Google新聞
30. 不能颳去收藏硒文本