Nutch的取調度重新抓取網頁

我已經按照這個article配置抓取計劃的重新抓取一個網站，但它似乎並沒有工作。添加在Nutch的-site.xml中的以下屬性來安排每10分鐘重新抓取，因爲我想重新抓取特定網站，以獲得改變pages.-Nutch的取調度重新抓取網頁

<property> 
    <name>db.fetch.schedule.class</name> 
    <value>org.apache.nutch.crawl.DefaultFetchSchedule</value> 
    <description>The implementation of fetch schedule. DefaultFetchSchedule simply 
    adds the original fetchInterval to the last fetch time, regardless of 
    page changes.</description> 
</property> 
<property> 
    <name>db.fetch.interval.default</name> 
    <value>600</value> 
    <description>The default number of seconds between re-fetches of a page (30 days). 
    </description> 
</property>

我的問題是會重新抓取每10分鐘之後自動啓動或者我需要做其他配置還是必須以某種方式觸發它？

來源

2014-03-05 akashmkr6

要小心，如果你設置這個太低了，你最終可能會具有無限爬行。如果執行整個抓取需要10分鐘以上的時間，那麼在它到達結尾之前，這個頁面會再次被添加到隊列中以重新抓取（我相信，我對此仍然是相當新的，但我只是在一篇文章中閱讀）。 –

是的，我也讀過。但它是沒有用的，因爲上述配置似乎不適合我。無論我將間隔設置爲5分鐘還是50分鐘，它總是開始新抓取，即似乎db.fetch.interval.default無用。 – akashmkr6

您應該創建的cronjob自動爬行。 db.fetch.interval.default只告訴nutch上次爬網後是否應該抓取該頁面。

來源

2014-03-07 16:57:15

因此，如果我每天都設置cronjob，請在上午10:00說，並將db.fetch.interval.default的值設置爲1周，那麼實際上不會發生重新抓取？ – akashmkr6

Nutch的取調度重新抓取網頁

回答

相關問題