2011-01-06 89 views
2

我正在開發一個系統,該系統必須跟蹤少量門戶網站的內容,並每天晚上檢查更改(例如,下載和索引在白天添加的新網站)。此門戶網站的內容將被索引以進行搜索。問題在於重新抓取這些門戶網站 - 首先對門戶網站的抓取需要很長時間(門戶網站的示例:www.onet.pl,www.bankier.pl,www.gazeta.pl),我希望更快地抓取它(儘可能快)例如通過檢查修改日期,但我已經使用wget下載www.bankier.pl,但作爲迴應,它抱怨說沒有最後修改標題。 有沒有辦法重新抓取這麼多的網站?我也嘗試過使用Nutch,但重新抓取腳本似乎不能正常工作 - 或者它也取決於這個標題(最後修改)。 也許有一種工具,履帶(像Nutch或其他),可以通過添加新的更新已經下載的網站?快速重新抓取網站

最好的問候, WOJTEK

回答

0

對於Nutch的,我已經寫上how to re-crawl with Nutch博客文章。基本上,您應該爲db.fetch.interval.default設置設置較低的值。在下一次獲取URL時,Nutch將使用最後一次獲取時間作爲HTTP頭的值作爲If-Modified-Since HTTP頭。

+0

並非所有網站都 '如果-Modified-Since的'。看看'Last-Modified'也能提供幫助。 – 2013-02-12 18:21:08

1

我推薦使用curl來只抓取頭部並檢查Last-Modified頭部是否已經改變。

例子:

curl --head www.bankier.pl