2013-09-28 40 views
1

我有這種情況:我的種子中有超過160個網址。一週前我開始爬行。現在,我的存儲空間中抓取了大量網頁,但我可以在Solr索引中看到,種子中的某些網址根本沒有被抓取(網址沒有來自robots.txt的某些限制),或者只有很少的網址。是否有可能告訴Nutch更喜歡一些網址?Nutch 2.X - 首選網址取

回答

0

你查過TopN值?還是Nutch仍在爬行?因爲索引和發送數據到solr是在過程結束時完成的!

+0

這不是問題所在。問題是一些網址在Solr中有1500個索引文檔,有些網址只有15,20個,其中很多隻有0個文檔。我不知道爲什麼...它不是因爲robotx.txt或一些禁令... –

+0

檢查TopN! 我覺得它的有限!將其設置爲-1! –