Nutch 2.X - 首選網址取

我有這種情況：我的種子中有超過160個網址。一週前我開始爬行。現在，我的存儲空間中抓取了大量網頁，但我可以在Solr索引中看到，種子中的某些網址根本沒有被抓取（網址沒有來自robots.txt的某些限制），或者只有很少的網址。是否有可能告訴Nutch更喜歡一些網址？Nutch 2.X - 首選網址取

來源

2013-09-28 Jan Bouchner

你查過TopN值？還是Nutch仍在爬行？因爲索引和發送數據到solr是在過程結束時完成的！

來源

2013-10-01 13:05:50

這不是問題所在。問題是一些網址在Solr中有1500個索引文檔，有些網址只有15,20個，其中很多隻有0個文檔。我不知道爲什麼...它不是因爲robotx.txt或一些禁令... –

檢查TopN！我覺得它的有限！將其設置爲-1！ –

Nutch 2.X - 首選網址取

回答

相關問題