2013-01-03 45 views
1

我在本地體驗了Nutch 2.1,沒有任何困難。我也試過3臺機器分佈式集羣。我們現在討論是否使用Amazon Web Services運行它。我沒有太多的AWS經驗。我的問題是,是否有可能嘗試Nutch2.1在雲上爬行和索引部分。我們有什麼可能的優點和缺點?Nutch 2.1(HBase,SOLR)和亞馬遜網絡服務

謝謝。

回答

3

如果您擁有與AWS羣集(您打算投資的)相同容量的羣集,那麼除了下面的#1之外,沒有任何優勢。

下面是你應該切換到AWS想想以前幾個因素:

  1. 主機的局部性爬:如果你正坐在歐洲和要爬很遠主辦的網站......說澳大利亞。如果您購買位於澳大利亞的AWS節點,那麼抓取該數據的速度要快於從歐洲爬行的速度。

  2. 成本:對於使用AWS機器,您需要按小時支付。你能負擔得起嗎?如果不是更好使用自己的機器

  3. 當前羣集容量:您當前的羣集是否有足夠的容量和空間來處理爬網的數據量?我認爲Nutch在Hadoop上運行的設計是爲了在商品硬件上運行,所以在計算速度方面不會存在問題。您的羣集是否可以容納抓取工具正在抓取的整個數據。

  4. 數據量:什麼是正在爬行的數據的粗略估計?如果它較少,那麼擁有AWS羣集就沒有意義了。

  5. 時間限制:是否有時間限制完成抓取?

如果你正在爲一個專業項目做這件事,那麼這些因素必須有一個想法。

如果您是爲了娛樂/愛好/學習而努力,請繼續使用AWS的免費層節點。這些是亞馬遜免費提供的低容量節點。它的樂趣,學習新的東西:) AWS的

優點:

  1. 無需購買機器設置集羣。除了終端PC之外,沒有任何硬件就可以開始使用。
  2. 地點
  3. 無需照顧機器。如果節點崩潰嚴重,請將其保留(不是您的問題:P)。購買一個新的,將其添加到集羣並繼續。

缺點AWS的:

  1. 不惜血本。
  2. 將數據複製到AWS羣集外部的任何計算機都需要付費。
  3. 當您放棄採購的AWS節點時,您的數據不會持續存在。如果你想堅持下去,就付錢並使用S3存儲服務。
+0

非常感謝,您的回覆非常有幫助。最好的祝福。 – messe

+0

我想說你的因素傾向於針對AWS。如果答案得到公平,我將不勝感激。例如。 「對於使用AWS計算機,您每小時支付一筆費用,您希望預付一臺服務器,還是按小時付費時可能更多?」 – ghayes