Nutch-Hadoop： - 我們如何只抓取網址中的更新進行重新抓取？

請有人讓我知道我怎麼能確定更新在網址去重新爬行？我想只抓取頁面的更新內容，而不是抓取已經抓取的舊內容。在此先感謝。 pragya ..Nutch-Hadoop： - 我們如何只抓取網址中的更新進行重新抓取？

2012-04-20 Pragya

我認爲你的意思是你只想在服務器端修改內容時重新抓取url。你想讓nutch識別它，從而巧妙地決定是否獲取內容。

Nutch擁有這種保持頁面「上次修改」時間的概念，並且在重新抓取頁面時存儲並未將其投入使用。 They knew它會節省磁盤空間和帶寬，但它並沒有捕捉到其他imp事物。 People had raised這個問題，但我仍然沒有看到來自nutch開發團隊的任何活動。 Efforts were taken以改善，我仍然不確定當前版本使用「最後修改」字段的精確程度。

來源

2012-04-20 14:42:02

你不能告訴nutch只獲取頁面的更新內容，並忘記其餘的未更改的數據。它會每次都獲得完整的內容。您可以巧妙地設置重新抓取頻率，以便頁面在更新後重新抓取。

來源

2012-04-21 18:38:31 user1348655

Nutch-Hadoop： - 我們如何只抓取網址中的更新進行重新抓取？

回答

相關問題