2014-04-29 22 views
1

我打算實施一個包含5臺機器的hadoop集羣。通過一些背景研究,我明白我需要在每臺機器上安裝hadoop以實現集羣。我可以使用hadoop發行版而不是手動安裝嗎?

早些時候,我打算安裝在每一個這些機器的Linux發行版,然後再單獨安裝的Hadoop,並配置每一臺機器並行工作。

最近我遇到了一些Hadoop發行版,例如Cloudera和Hortonworks。我的問題是,我應該在每臺機器上安裝Cloudera或Hortonworks等發行版,還是應該像前面描述的那樣單獨安裝hadoop?

使用分佈將使我的任務更容易,還是需要更多的知識來處理它們而不是純粹的hadoop安裝?

+1

是的,它會讓你的生活更容易,如果您使用這些分佈的。 – climbage

回答

3

我在Hadoop的初學者太(〜1.5個月),使用分佈可以是非常有幫助的,如果您使用自動化的方式來安裝(Cloudera的經理了Cloudera或Ambari爲Hortonworks)。它可以非常快速地在所有集羣上安裝並部署Hadoop和您選擇的服務(配置單元,黑斑羚,火花,色調等)。我認爲主要的缺點是你不能真正優化和個性化你的安裝,但是第一次運行一些簡單的案例會容易得多。

+0

我是否還需要在每臺機器上安裝發行版?我的意思是如果我使用cloudera或hortonworks?你能提供給我分配的下載鏈接 – DesirePRG

+2

,你可以在這裏得到了Cloudera:http://www.cloudera.com/content/cloudera/en/products-and-services/cloudera-express.html 沒有你不不得不在每臺機器上安裝。您有一個安裝過程,您可以在其中指定要用於羣集的主機的ips,您可以選擇要使用的服務,並指定每個主機的角色。最後,cloudera manager自動安裝發行版。 我認爲免費版僅限於50個節點。 – Junayy

+0

謝謝Junnay.I正計劃用hadoop來使用Mahout。那會是一個問題嗎? – DesirePRG

2

我強烈建議使用發行版而不是手動完成。即使使用發行版也會第一次複雜化,因爲除了基本的Hadoop安裝外,還有許多獨立的服務需要運行,具體取決於您想要的內容。

另外,你是否打算只有5臺機器的簇大小?如果這樣的話,Hadoop可能不適合你。您可以在單個服務器上運行所有主服務器並擁有4個節點的羣集,但這可能不會很好地執行。請注意,HDFS的典型冗餘爲3,因此4個節點勉強夠用。如果一臺或兩臺機器出現故障,您可能很容易丟失生產羣集中的數據。我個人建議至少8個節點和一個或主人兩臺服務器,所以9或10總簇的大小,最好是10

+0

感謝您的意見。這只是爲了學術目的,而我並不打算在生產中使用。我打算對一些機器學習算法進行性能研究。我會盡量按照你的說法去尋找更多的資源。 – DesirePRG

相關問題