快速重新抓取網站

我正在開發一個系統，該系統必須跟蹤少量門戶網站的內容，並每天晚上檢查更改（例如，下載和索引在白天添加的新網站）。此門戶網站的內容將被索引以進行搜索。問題在於重新抓取這些門戶網站 - 首先對門戶網站的抓取需要很長時間（門戶網站的示例：www.onet.pl，www.bankier.pl，www.gazeta.pl），我希望更快地抓取它（儘可能快）例如通過檢查修改日期，但我已經使用wget下載www.bankier.pl，但作爲迴應，它抱怨說沒有最後修改標題。有沒有辦法重新抓取這麼多的網站？我也嘗試過使用Nutch，但重新抓取腳本似乎不能正常工作 - 或者它也取決於這個標題（最後修改）。也許有一種工具，履帶（像Nutch或其他），可以通過添加新的更新已經下載的網站？快速重新抓取網站

最好的問候， WOJTEK

來源

2011-01-06 Wojtek

對於Nutch的，我已經寫上how to re-crawl with Nutch博客文章。基本上，您應該爲db.fetch.interval.default設置設置較低的值。在下一次獲取URL時，Nutch將使用最後一次獲取時間作爲HTTP頭的值作爲If-Modified-Since HTTP頭。

來源

2011-01-06 19:00:10

並非所有網站都 '如果-Modified-Since的'。看看'Last-Modified'也能提供幫助。 – 2013-02-12 18:21:08

我推薦使用curl來只抓取頭部並檢查Last-Modified頭部是否已經改變。

例子：

curl --head www.bankier.pl

來源

2011-01-06 19:03:27

快速重新抓取網站

回答

相關問題