我是Nutch和Solr的新手。目前我想抓取一個網站,其內容是由ASP生成的Nutch沒有抓取seed.txt中的所有網址
。由於內容不是靜態的,我創建了一個seed.txt,其中包含我想要抓取的所有網址。例如:
http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...
正則表達式-urlfilter.txt具有該過濾器:
# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/
我用這個命令,以啓動抓取:
/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10
的seed.txt內容40,000+網址。但是,我發現許多網址內容不是
能夠被Solr找到。
問:
是這種方法對於大seed.txt是否可行?
如何檢查URL是否正在抓取?
是seed.txt有一個大小限制?
謝謝!
謝謝Jayendra。在更改db.max.outlinks.per.page後,nutch仍然抓取有限的網址。然而,我發現增加topN值Nutch似乎會獲取更多頁面。那麼,topN會做些什麼呢?並且所提取的url會被索引到solr? – user1773304