我在本地體驗了Nutch 2.1,沒有任何困難。我也試過3臺機器分佈式集羣。我們現在討論是否使用Amazon Web Services運行它。我沒有太多的AWS經驗。我的問題是,是否有可能嘗試Nutch2.1在雲上爬行和索引部分。我們有什麼可能的優點和缺點?Nutch 2.1(HBase,SOLR)和亞馬遜網絡服務
謝謝。
我在本地體驗了Nutch 2.1,沒有任何困難。我也試過3臺機器分佈式集羣。我們現在討論是否使用Amazon Web Services運行它。我沒有太多的AWS經驗。我的問題是,是否有可能嘗試Nutch2.1在雲上爬行和索引部分。我們有什麼可能的優點和缺點?Nutch 2.1(HBase,SOLR)和亞馬遜網絡服務
謝謝。
如果您擁有與AWS羣集(您打算投資的)相同容量的羣集,那麼除了下面的#1之外,沒有任何優勢。
下面是你應該切換到AWS想想以前幾個因素:
主機的局部性爬:如果你正坐在歐洲和要爬很遠主辦的網站......說澳大利亞。如果您購買位於澳大利亞的AWS節點,那麼抓取該數據的速度要快於從歐洲爬行的速度。
成本:對於使用AWS機器,您需要按小時支付。你能負擔得起嗎?如果不是更好使用自己的機器
當前羣集容量:您當前的羣集是否有足夠的容量和空間來處理爬網的數據量?我認爲Nutch在Hadoop上運行的設計是爲了在商品硬件上運行,所以在計算速度方面不會存在問題。您的羣集是否可以容納抓取工具正在抓取的整個數據。
數據量:什麼是正在爬行的數據的粗略估計?如果它較少,那麼擁有AWS羣集就沒有意義了。
時間限制:是否有時間限制完成抓取?
如果你正在爲一個專業項目做這件事,那麼這些因素必須有一個想法。
如果您是爲了娛樂/愛好/學習而努力,請繼續使用AWS的免費層節點。這些是亞馬遜免費提供的低容量節點。它的樂趣,學習新的東西:) AWS的
優點:
缺點AWS的:
非常感謝,您的回覆非常有幫助。最好的祝福。 – messe
我想說你的因素傾向於針對AWS。如果答案得到公平,我將不勝感激。例如。 「對於使用AWS計算機,您每小時支付一筆費用,您希望預付一臺服務器,還是按小時付費時可能更多?」 – ghayes