2016-10-13 39 views

回答

1

StormCrawler可以處理遞歸爬網,並且URL優先的方式取決於用於存儲URL的後端。

例如Elasticsearch module可用於此,請參閱自述文件的簡短教程和sample config file,默認情況下噴口將根據其nextFetchDate(**。sort.field *)對URL進行排序。

在Nutch中,-topN參數僅指定要放入下一個細分受衆羣的網址的最大數量(根據使用哪個得分插件提供的分數)。使用StormCrawler我們並不需要等效的東西,因爲事情沒有通過批處理,爬行連續運行。

+0

而不是'nextFetchDate'可以有'inboundLinkCount'或'linkscore'之類的東西嗎?基本上是一些指示符,告訴'網頁對於互聯網有多重要' –

+0

您可以使用狀態索引中索引的任何字段。你如何爲這個領域產生價值是另一回事。您可以有一個外部過程,例如基於Spark計算PageRank值並將其輸入狀態索引。目前在StormCrawler中沒有相當於Nutch的OPIC,但通過編寫一個自定義的StatusUpdaterBolt(或使用狀態流的全新螺栓)來實現'inboundLinkCount'並不會太困難,這會增加字段的值基於outlinks的ES索引(狀態值爲DISCOVERED的元組) –