0
在Nutch2.2.1中,當我每次運行nutch時,它都會抓取包含我已經爬過的所有url。Nutch2.x每次運行每個url
我想要一個url只被抓取一次,不管nutch運行多少次,那麼,如何配置呢?
在Nutch2.2.1中,當我每次運行nutch時,它都會抓取包含我已經爬過的所有url。Nutch2.x每次運行每個url
我想要一個url只被抓取一次,不管nutch運行多少次,那麼,如何配置呢?
獲取網站後,Nutch會將該網站的網址標記爲抓取網址,並且在下一次抓取時不會再抓取該網址。默認情況下,Nutch將在30天后重新抓取。您可以通過修改db.fetch.interval.default屬性來更改重新獲取頁面之間的默認秒數。
希望這有助於
李全安待辦事項
,但我用mysql,我看到桌子網頁兩列:fetchtime和prevfetchtime,每次我重新抓取該網站時,這兩個字段將發生變化。 .. – douglee