Q

如何使用Nutch顯示本地文件抓取的完成百分比？

nutch

2013-10-15 56 views -1 likes

-1

我想知道，如何顯示完成本地文件抓取的百分比？如何使用Nutch顯示本地文件抓取的完成百分比？

我打算使用Nutch來抓取一個共享磁盤。

更新：

如果我使用的「ls -R」或「發現〜」得到事先所有的文件名，並存儲爲種子？這樣我們知道文件的總數。

2013-10-15 janetsmith

+0

downvoter，介意爲什麼要投票拒絕這個問題？ – janetsmith

A

回答

1

由於Nutch的性質，這是不可能的。

Nutch通過從根節點（種子）開始抓取內容，並從中找出任何outlinks，迭代地抓取它們，直到沒有更多鏈接或達到爬網限制爲止。

由於Nutch不知道要抓取的節點的完整數量，因此無法計算百分比。

您可以在這裏找到的Nutch的概述：http://www.slideshare.net/digitalpebble/large-scale-crawling-with-apache-nutch

另一種監控Nutch的抓取：https://wiki.apache.org/nutch/MonitoringNutchCrawls

編輯：我想你可以得到的索引文件算出來SOLR的，或者寫一個每次抓取文件時都會增加計數器的插件...

更大的問題是，您嘗試解決什麼問題？

2013-10-16 22:18:14 nimeshjm

相關問題