2012-04-20 71 views

回答

1

我認爲你的意思是你只想在服務器端修改內容時重新抓取url。你想讓nutch識別它,從而巧妙地決定是否獲取內容。

Nutch擁有這種保持頁面「上次修改」時間的概念,並且在重新抓取頁面時存儲並未將其投入使用。 They knew它會節省磁盤空間和帶寬,但它並沒有捕捉到其他imp事物。 People had raised這個問題,但我仍然沒有看到來自nutch開發團隊的任何活動。 Efforts were taken以改善,我仍然不確定當前版本使用「最後修改」字段的精確程度。

1

你不能告訴nutch只獲取頁面的更新內容,並忘記其餘的未更改的數據。它會每次都獲得完整的內容。您可以巧妙地設置重新抓取頻率,以便頁面在更新後重新抓取。