優先考慮Storm Crawler中的遞歸爬行

爬行萬維網時，我想爲我的爬蟲提供一個URL的初始種子列表 - 並希望我的爬蟲能夠在抓取過程中自動從互聯網「發現」新的種子URL。優先考慮Storm Crawler中的遞歸爬行

我在Apach Nutch中看到了這樣的選項（請參閱generate command of nutch中的topN參數）。 Storm Crawler中也有這樣的選項嗎？

來源

2016-10-13 Tushar Goswami

StormCrawler可以處理遞歸爬網，並且URL優先的方式取決於用於存儲URL的後端。

例如Elasticsearch module可用於此，請參閱自述文件的簡短教程和sample config file，默認情況下噴口將根據其nextFetchDate（**。sort.field *）對URL進行排序。

在Nutch中，-topN參數僅指定要放入下一個細分受衆羣的網址的最大數量（根據使用哪個得分插件提供的分數）。使用StormCrawler我們並不需要等效的東西，因爲事情沒有通過批處理，爬行連續運行。

來源

2016-10-13 11:19:47

而不是'nextFetchDate'可以有'inboundLinkCount'或'linkscore'之類的東西嗎？基本上是一些指示符，告訴'網頁對於互聯網有多重要' –

您可以使用狀態索引中索引的任何字段。你如何爲這個領域產生價值是另一回事。您可以有一個外部過程，例如基於Spark計算PageRank值並將其輸入狀態索引。目前在StormCrawler中沒有相當於Nutch的OPIC，但通過編寫一個自定義的StatusUpdaterBolt（或使用狀態流的全新螺栓）來實現'inboundLinkCount'並不會太困難，這會增加字段的值基於outlinks的ES索引（狀態值爲DISCOVERED的元組） –

優先考慮Storm Crawler中的遞歸爬行

回答

相關問題