2012-10-01 39 views
0

作爲論文的一部分,我必須評估和測試一些大數據框架,如Hadoop或Storm。你會推薦什麼樣的最小設置來獲得關於性能和可伸縮性的相關信息?什麼樣的雲平臺最適合這個?由於即時評估多個框架PaaS - 解決方案不會是最好的選擇。對?最少數量的節點/服務器獲取相關信息是多少?越便宜越好,因爲該公司即時通訊做它可能不會給予我一個20機械集羣;)測試大數據框架需要什麼樣的環境?

非常感謝, kroax

回答

0

嘛,你肯定會想至少有兩個物理機。像在一臺物理機器上放置多個虛擬機是不可能的,因爲那樣你就無法獲得分佈式系統典型的網絡開銷。

三可能是絕對最低限度,你可以逃避作爲一個現實的情況。即便如此,很多時候,Hadoop的開銷幾乎沒有超過收益。

我會說五是最現實的最小值和一個相當典型的小簇大小。 5 - 8是一個很好的小範圍。

就平臺而言,我想說亞馬遜EC2/EMR應該永遠是考慮的第一選擇。這是一項行之有效的優質服務,許多現實世界的羣集正在運行。好處是它易於使用,相對便宜,並且代表了真實世界的場景。唯一的缺點是虛擬化可能會導致它比個別物理機器略有不同,但這對您來說可能是或可能不是問題。如果您使用較大的實例類型,我相信它們的虛擬化程度較低。

希望這會有所幫助。

相關問題