Nutch沒有抓取seed.txt中的所有網址

我是Nutch和Solr的新手。目前我想抓取一個網站，其內容是由ASP生成的Nutch沒有抓取seed.txt中的所有網址

。由於內容不是靜態的，我創建了一個seed.txt，其中包含我想要抓取的所有網址。例如：

http://us.abc.com/product/10001 
http://us.abc.com/product/10002 
http://jp.abc.com/product/10001 
http://jp.abc.com/product/10002 
...

正則表達式-urlfilter.txt具有該過濾器：

# accept anything else 
#+. 
+^http://([a-z0-9]*\.)*abc.com/

我用這個命令，以啓動抓取：

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10

的seed.txt內容40,000+網址。但是，我發現許多網址內容不是

能夠被Solr找到。

問：

謝謝！

查看nutch配置文件中的屬性db.max.outlinks.per.page。
該屬性的默認值爲100，因此只有100個urls將從seeds.txt中獲取，其餘的將被跳過。
將此值更改爲更高的數字以使所有的URL掃描並建立索引。

2012-10-25 07:09:48 Jayendra

謝謝Jayendra。在更改db.max.outlinks.per.page後，nutch仍然抓取有限的網址。然而，我發現增加topN值Nutch似乎會獲取更多頁面。那麼，topN會做些什麼呢？並且所提取的url會被索引到solr？ – user1773304

topN表示應該提取多少條生成的鏈接。你可以有100個已經生成的鏈接，但是如果你將topN設置爲12，那麼只有12個鏈接會被抓取，解析和索引。

2013-05-02 07:37:21 DavSeq

回答