2013-01-10 40 views

回答

0

如果您使用crawl command檢查深度參數。

深度深度指示應該抓取的根網頁的鏈接深度。

使用這個,你可以控制你需要Nutch抓取的深度。值爲1可能會將其限制爲僅基頁。

3

在您的nutch-site.xml配置中,將「db.ignore.external.links」屬性設置爲true。

這將忽略任何到注入列表之外的域的URL。

相關問題