如何配置Nutch只抓取seeklist中的URL？（沒有爬回需要）

我有一個URL種子列表包含超過100000個網址。我知道，nutch不僅會抓取種子列表中的網址，還會抓取網站內部的任何網址鏈接。但是，我想知道有沒有辦法阻止這種行爲？所以只需要在種子列表中指定的網址被抓取。如何配置Nutch只抓取seeklist中的URL？（沒有爬回需要）

如果您使用crawl command檢查深度參數。

深度深度指示應該抓取的根網頁的鏈接深度。

使用這個，你可以控制你需要Nutch抓取的深度。值爲1可能會將其限制爲僅基頁。

2013-01-10 03:45:51 Jayendra

在您的nutch-site.xml配置中，將「db.ignore.external.links」屬性設置爲true。

這將忽略任何到注入列表之外的域的URL。

2013-01-10 06:18:41 Umar

如何配置Nutch只抓取seeklist中的URL？ （沒有爬回需要）