-1
我想知道,如何顯示完成本地文件抓取的百分比?如何使用Nutch顯示本地文件抓取的完成百分比?
我打算使用Nutch來抓取一個共享磁盤。
更新:
如果我使用的「ls -R」或「發現〜」得到事先所有的文件名,並存儲爲種子?這樣我們知道文件的總數。
我想知道,如何顯示完成本地文件抓取的百分比?如何使用Nutch顯示本地文件抓取的完成百分比?
我打算使用Nutch來抓取一個共享磁盤。
更新:
如果我使用的「ls -R」或「發現〜」得到事先所有的文件名,並存儲爲種子?這樣我們知道文件的總數。
由於Nutch的性質,這是不可能的。
Nutch通過從根節點(種子)開始抓取內容,並從中找出任何outlinks,迭代地抓取它們,直到沒有更多鏈接或達到爬網限制爲止。
由於Nutch不知道要抓取的節點的完整數量,因此無法計算百分比。
您可以在這裏找到的Nutch的概述:http://www.slideshare.net/digitalpebble/large-scale-crawling-with-apache-nutch
另一種監控Nutch的抓取:https://wiki.apache.org/nutch/MonitoringNutchCrawls
編輯: 我想你可以得到的索引文件算出來SOLR的,或者寫一個每次抓取文件時都會增加計數器的插件...
更大的問題是,您嘗試解決什麼問題?
downvoter,介意爲什麼要投票拒絕這個問題? – janetsmith