stormcrawler

    0熱度

    1回答

    我們正試圖實施Storm Crawler來抓取數據。我們已經能夠從網址中找到子鏈接,但我們希望從這些子鏈接中獲取內容。我一直沒有找到能夠指導我如何得到它的很多資源?任何有用的鏈接/網站在這方面將是有益的。謝謝。

    0熱度

    1回答

    我正在使用StormCrawler進行實時爬網。我在ElasticSearch中插入域,並且爬網程序正在爬網,我已經爲每個域定義了爬網URLS的限制(使用Redis中的SimpleFetcherBolt)。 場景:當我插入一個域時,StormCrawler開始爬網。現在在ElasticSeeds中輸入一個新的域,StormCrawler不會立即獲取它。 它正在忙於獲取上一個域的抓取頁面。如果限制較

    1熱度

    1回答

    爬行萬維網時,我想爲我的爬蟲提供一個URL的初始種子列表 - 並希望我的爬蟲能夠在抓取過程中自動從互聯網「發現」新的種子URL。 我在Apach Nutch中看到了這樣的選項(請參閱generate command of nutch中的topN參數)。 Storm Crawler中也有這樣的選項嗎?