我正在開發一個系統,該系統必須跟蹤少量門戶網站的內容,並每天晚上檢查更改(例如,下載和索引在白天添加的新網站)。此門戶網站的內容將被索引以進行搜索。問題在於重新抓取這些門戶網站 - 首先對門戶網站的抓取需要很長時間(門戶網站的示例:www.onet.pl,www.bankier.pl,www.gazeta.pl),我希望更快地抓取它(儘可能快)例如通過檢查修改日期,但我已經使用wget下載www.bankier.pl,但作爲迴應,它抱怨說沒有最後修改標題。 有沒有辦法重新抓取這麼多的網站?我也嘗試過使用Nutch,但重新抓取腳本似乎不能正常工作 - 或者它也取決於這個標題(最後修改)。 也許有一種工具,履帶(像Nutch或其他),可以通過添加新的更新已經下載的網站?快速重新抓取網站
最好的問候, WOJTEK
並非所有網站都 '如果-Modified-Since的'。看看'Last-Modified'也能提供幫助。 – 2013-02-12 18:21:08