請有人讓我知道我怎麼能確定更新在網址去重新爬行?我想只抓取頁面的更新內容,而不是抓取已經抓取的舊內容。 在此先感謝。 pragya ..Nutch-Hadoop: - 我們如何只抓取網址中的更新進行重新抓取?
0
A
回答
1
我認爲你的意思是你只想在服務器端修改內容時重新抓取url。你想讓nutch識別它,從而巧妙地決定是否獲取內容。
Nutch擁有這種保持頁面「上次修改」時間的概念,並且在重新抓取頁面時存儲並未將其投入使用。 They knew它會節省磁盤空間和帶寬,但它並沒有捕捉到其他imp事物。 People had raised這個問題,但我仍然沒有看到來自nutch開發團隊的任何活動。 Efforts were taken以改善,我仍然不確定當前版本使用「最後修改」字段的精確程度。
1
你不能告訴nutch只獲取頁面的更新內容,並忘記其餘的未更改的數據。它會每次都獲得完整的內容。您可以巧妙地設置重新抓取頻率,以便頁面在更新後重新抓取。
相關問題
- 1. 在nutch 1.3中重新抓取網址
- 2. 更新viewstate網頁抓取
- 3. 如何在nutch 1.3中重新抓取不同的預定抓取網站?
- 4. Google何時重新抓取網站?
- 5. 我是從網址抓取
- 6. scrapy如何抓取更多網址?
- 7. Rails抓取網址
- 8. 快速重新抓取網站
- 9. 抓取頁面更新後
- 10. 只抓取Rails中的最新評論
- 11. 爬1000元重新抓取網址在Nutch的
- 12. 用scrapy抓取重定向的網址
- 13. 軟件抓取/抓取網站的網址
- 14. 如何存儲Scrapy抓取的網址?
- 15. Scrapy如何過濾抓取的網址?
- 16. 爲什麼Nutch(v2.3)只抓取種子網址,而不抓取整個網站?
- 17. Facebook無法抓取我的網址
- 18. Scrapy - 蜘蛛抓取重複網址
- 19. 轉到頭抓取網址
- 20. 無法抓取Facebook網址
- 21. Django googlebot抓取AJAX網址
- 22. 從網址抓取信息?
- 23. 如何爲scrapy提供抓取網址?
- 24. 先進的網頁抓取
- 25. 如何抓取一個網站只有域名網址scrapy
- 26. 我們可以阻止Googlebot抓取舊的pdf網址
- 27. 網頁抓取/抓取的資源
- 28. CVS - 只抓取最新變化
- 29. Nutch的取調度重新抓取網頁
- 30. 訂單中的Scrapy抓取網址