stormcrawler

0熱度

1回答

我們正試圖實施Storm Crawler來抓取數據。我們已經能夠從網址中找到子鏈接，但我們希望從這些子鏈接中獲取內容。我一直沒有找到能夠指導我如何得到它的很多資源？任何有用的鏈接/網站在這方面將是有益的。謝謝。

0熱度

1回答

使用ElasticSearch並行處理StormCrawler中插入的新域/ URL

我正在使用StormCrawler進行實時爬網。我在ElasticSearch中插入域，並且爬網程序正在爬網，我已經爲每個域定義了爬網URLS的限制（使用Redis中的SimpleFetcherBolt）。場景：當我插入一個域時，StormCrawler開始爬網。現在在ElasticSeeds中輸入一個新的域，StormCrawler不會立即獲取它。它正在忙於獲取上一個域的抓取頁面。如果限制較

1熱度

1回答

優先考慮Storm Crawler中的遞歸爬行

爬行萬維網時，我想爲我的爬蟲提供一個URL的初始種子列表 - 並希望我的爬蟲能夠在抓取過程中自動從互聯網「發現」新的種子URL。我在Apach Nutch中看到了這樣的選項（請參閱generate command of nutch中的topN參數）。 Storm Crawler中也有這樣的選項嗎？