我有很多網站;每月有些變化的內容和每天變化的內容。 nutch 1.3抓取它們,現在我想用不同的計劃抓取重新抓取它們。 我該怎麼做? 謝謝。如何在nutch 1.3中重新抓取不同的預定抓取網站?
0
A
回答
2
您可以編寫一個shell腳本,您可以在其中指定用於運行爬網程序的命令名稱,並在linux中使用cron命令來調度此腳本的執行。
http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/
即使谷歌在一段時間後反覆抓取整個網絡。
1
您可以指定取(兩個連續抓取之間的時間)間隔像這樣在你的種子文件中的每個條目:
http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000
如果您正在使用AdaptiveFetchSchedule
剛纔設置的啓動間隔上面的條目,每個重新檢索後取決於頁面是否更改,此間隔將增加或減少。在這種情況下,如果您始終需要固定的時間間隔,則可以在上面的行中使用nutch.fetchInterval.fixed
而不是nutch.fetchInterval
。
相關問題
- 1. 在nutch 1.3中重新抓取網址
- 2. apache nutch不抓取網站
- 3. Nutch未能抓取特定網站
- 4. 在nutch 1.4中自動重新抓取網站?
- 5. 快速重新抓取網站
- 6. 爲什麼Nutch(v2.3)只抓取種子網址,而不抓取整個網站?
- 7. Google何時重新抓取網站?
- 8. 從nutch重點抓取
- 9. 如何解析/抓取/抓取特定信息的網站?
- 10. Apache Nutch重新啓動抓取
- 11. Nutch的取調度重新抓取網頁
- 12. 安裝抓取,網站抓取庫
- 13. 如何抓取網站?
- 14. Nutch-Hadoop: - 我們如何只抓取網址中的更新進行重新抓取?
- 15. 如何在Nutch中只抓取HTML?
- 16. Nutch抓取不起作用
- 17. 爬1000元重新抓取網址在Nutch的
- 18. Nutch如何抓取一個網站的所有鏈接?
- 19. 如何抓取Nutch中的圖像?
- 20. 如何包括在Nutch的抓取
- 21. scrapy抓取網站
- 22. 如何編寫一個java代碼來抓取apache nutch 1.3 api的站點?
- 23. 網站抓取器每隔幾秒就抓取一次網站
- 24. Nutch的抓取命令
- 25. Nutch抓取 - 在每個抓取影響中刪除分段
- 26. 不同佈局的網站抓取網站(經用戶同意)
- 27. Nutch抓取並忽略新的Url
- 28. 如何讓Apache Nutch的抓取永遠
- 29. 如何讓Nutch的爬蟲抓取
- 30. 軟件抓取/抓取網站的網址