2013-10-15 56 views

回答

1

由於Nutch的性質,這是不可能的。

Nutch通過從根節點(種子)開始抓取內容,並從中找出任何outlinks,迭代地抓取它們,直到沒有更多鏈接或達到爬網限制爲止。

由於Nutch不知道要抓取的節點的完整數量,因此無法計算百分比。

您可以在這裏找到的Nutch的概述:http://www.slideshare.net/digitalpebble/large-scale-crawling-with-apache-nutch

另一種監控Nutch的抓取:https://wiki.apache.org/nutch/MonitoringNutchCrawls

編輯: 我想你可以得到的索引文件算出來SOLR的,或者寫一個每次抓取文件時都會增加計數器的插件...

更大的問題是,您嘗試解決什麼問題?