我使用Nutch 2.1抓取了一個網址,然後我想在網頁更新後重新抓取網頁。我怎樣才能做到這一點?我怎麼知道一個頁面被更新?Nutch的重新抓圖網址僅適用於更新的網站
回答
只是你不能。您需要重新抓取頁面以控制它是否已更新。因此,根據您的需要,優先處理頁面/域名並在一段時間內重新抓取它們。爲此,您需要一個作業調度程序,如Quartz。
您需要編寫一個比較頁面的函數。但是,Nutch最初將頁面保存爲索引文件。換句話說,Nutch生成新的二進制文件來保存HTML。我不認爲有可能比較二進制文件,因爲Nutch將所有抓取結果合併到一個文件中。如果您想要保存原始的HTML格式來比較頁面,請參閱我的回答this question.
你必須TA的工作是安排在射擊練習作業
然而,Nutch的AdaptiveFetchSchedule應使您能夠抓取和索引的網頁,並檢測是否頁面是新的或更新的,您不必手動完成。
Article描述了相同的細節。
好吧,我閱讀文章,我有另一個問題。我必須使用任何工作sheduler運行我的命令爬行給定的網址或我需要自適應Fetch調度程序來做到這一點?如果Adaptive Fetch是正確的,我該如何使用它? –
您可以在config中配置adaptice schedule wihtin。你需要一個調度程序來解僱工作,例如Autosys,Quartz等 – Jayendra
我不得不在這裏不同意你的看法。您提到的課程根據已爬網站點的「if-modified-since」和「last-modified」http標題進行工作。我必須告訴,沒有任何的網站(除谷歌,youtube,stackoverflow等)不能信任這些標題的真實性。 –
約http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/
這是在討論什麼:How to recrawle nutch
我想知道如果,上述方案確實會工作。我正在講話。我抓取新聞網站,他們經常更新他們的首頁,所以我需要經常重新抓取索引/首頁,並獲取新發現的鏈接。
你究竟在想什麼,推薦以前的答案中推薦的同一篇文章? –
- 1. 在nutch 1.3中重新抓取網址
- 2. 爬1000元重新抓取網址在Nutch的
- 3. 重寫舊網站的網址到新網站的網址
- 4. 在nutch 1.4中自動重新抓取網站?
- 5. apache nutch不抓取網站
- 6. 如何在nutch 1.3中重新抓取不同的預定抓取網站?
- 7. Nutch-Hadoop: - 我們如何只抓取網址中的更新進行重新抓取?
- 8. Nutch的取調度重新抓取網頁
- 9. Htaccess僅適用於友好的網址
- 10. 爲什麼Nutch(v2.3)只抓取種子網址,而不抓取整個網站?
- 11. 使用PHP更改/重新定位網站真實網址
- 12. 快速重新抓取網站
- 13. Google何時重新抓取網站?
- 14. Nutch未能抓取特定網站
- 15. Asp.Net更新圖片網址
- 16. arr網址重寫不適用於外部網站
- 17. 更新網站
- 18. 關於使用nutch對短網址進行抓取
- 19. 通過.htaccess重寫舊的WordPress網址到新網站的網址結構
- 20. 將網站遷移到新網址並將舊網址指向新網址
- 21. 舊wordpress網站的網址仍然重定向到我的新shopify網站?
- 22. 新的ASP.NET網站和重定向所有舊網址的
- 23. 更新viewstate網頁抓取
- 24. 更新網址而不刷新網頁
- 25. AJAX網址更新
- 26. Visual Studio,更新網站地址
- 27. 要啓用在nutch中的特殊字符的抓取網址
- 28. 重定向舊網址到新網址
- 29. 更新網址與htaccess的
- 30. .htaccess重定向 - 更新的網站(301適當?)
JOB調度程序如何比較爬網如果更新或相同?我的意思是如何nutch或太陽能比較內容? –
編輯答案。 –
因此,如果與舊版本相比有一些變化,並且如果有新內容,那麼應該檢查每個頁面,然後該頁面將被抓取。如果我理解正確,我只需要簡單的函數來比較字符串? –