1
爬行萬維網時,我想爲我的爬蟲提供一個URL的初始種子列表 - 並希望我的爬蟲能夠在抓取過程中自動從互聯網「發現」新的種子URL。優先考慮Storm Crawler中的遞歸爬行
我在Apach Nutch中看到了這樣的選項(請參閱generate command of nutch中的topN參數)。 Storm Crawler中也有這樣的選項嗎?
爬行萬維網時,我想爲我的爬蟲提供一個URL的初始種子列表 - 並希望我的爬蟲能夠在抓取過程中自動從互聯網「發現」新的種子URL。優先考慮Storm Crawler中的遞歸爬行
我在Apach Nutch中看到了這樣的選項(請參閱generate command of nutch中的topN參數)。 Storm Crawler中也有這樣的選項嗎?
StormCrawler可以處理遞歸爬網,並且URL優先的方式取決於用於存儲URL的後端。
例如Elasticsearch module可用於此,請參閱自述文件的簡短教程和sample config file,默認情況下噴口將根據其nextFetchDate(**。sort.field *)對URL進行排序。
在Nutch中,-topN參數僅指定要放入下一個細分受衆羣的網址的最大數量(根據使用哪個得分插件提供的分數)。使用StormCrawler我們並不需要等效的東西,因爲事情沒有通過批處理,爬行連續運行。
而不是'nextFetchDate'可以有'inboundLinkCount'或'linkscore'之類的東西嗎?基本上是一些指示符,告訴'網頁對於互聯網有多重要' –
您可以使用狀態索引中索引的任何字段。你如何爲這個領域產生價值是另一回事。您可以有一個外部過程,例如基於Spark計算PageRank值並將其輸入狀態索引。目前在StormCrawler中沒有相當於Nutch的OPIC,但通過編寫一個自定義的StatusUpdaterBolt(或使用狀態流的全新螺栓)來實現'inboundLinkCount'並不會太困難,這會增加字段的值基於outlinks的ES索引(狀態值爲DISCOVERED的元組) –