2012-10-25 34 views
2

我是Nutch和Solr的新手。目前我想抓取一個網站,其內容是由ASP生成的Nutch沒有抓取seed.txt中的所有網址

。由於內容不是靜態的,我創建了一個seed.txt,其中包含我想要抓取的所有網址。例如:

http://us.abc.com/product/10001 
http://us.abc.com/product/10002 
http://jp.abc.com/product/10001 
http://jp.abc.com/product/10002 
... 

正則表達式-urlfilter.txt具有該過濾器:

# accept anything else 
#+. 
+^http://([a-z0-9]*\.)*abc.com/ 

我用這個命令,以啓動抓取:

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10 

的seed.txt內容40,000+網址。但是,我發現許多網址內容不是

能夠被Solr找到。

問:

  1. 是這種方法對於大seed.txt是否可行?

  2. 如何檢查URL是否正在抓取?

  3. 是seed.txt有一個大小限制?

謝謝!

回答

4

查看nutch配置文件中的屬性db.max.outlinks.per.page
該屬性的默認值爲100,因此只有100個urls將從seeds.txt中獲取,其餘的將被跳過。
將此值更改爲更高的數字以使所有的URL掃描並建立索引。

+0

謝謝Jayendra。在更改db.max.outlinks.per.page後,nutch仍然抓取有限的網址。然而,我發現增加topN值Nutch似乎會獲取更多頁面。那麼,topN會做些什麼呢?並且所提取的url會被索引到solr? – user1773304

0

topN表示應該提取多少條生成的鏈接。你可以有100個已經生成的鏈接,但是如果你將topN設置爲12,那麼只有12個鏈接會被抓取,解析和索引。

相關問題