2012-05-01 35 views
0

我是hadoop的初學者。但我有這個有趣的觀察。hadoop僞分佈式操作和獨立操作之間的性能對比

使用the example的Hadoop文檔中,

通過運行在獨立操作和僞分佈式運行相同的例子,獨立的一個了不到1分鐘,但僞分佈式運行時間超過3分鐘。這是很大的差異。我可以理解分佈式模式下額外的網絡和調度開銷。但差異似乎太多了。這可能不是真正的比較,因爲這個例子非常簡單。

我的問題是,有多少區別你的獨立和分佈式模式之間的經驗,爲現實世界的工作嗎?

+1

僞分佈模式或獨立模式都不適用於生產,因此可能難以得到有用的答案。 –

回答

1

這些是合理不同的情況。在獨立模式下,它永遠不會啓動合適的單節點Hadoop集羣。所有事情都是在JVM中本地發生的,內聯的。數據永遠不必寫入磁盤,可能。僞分佈式操作是一個本地節點的最小「真正」Hadoop安裝。您必須讀取/寫入數據到本地HDFS實例,產生另一個JVM等。所有這些都會增加很多開銷。也許開銷確實是幾分鐘。這對我來說似乎完全合情合理。

0

的Hadoop框架的工作是爲處理大數據..

因此,數據的大小是相當重要的,因爲較小的文件將在傳統的文件系統不是在Hadoop中得到處理速度非常快,因爲Hadoop的mapreduce框架的工作有內部工作要做(使數據文件塊,並將其發送到數據節點,同時再次處理來自數據節點的訪問)。因此,對於較小的文件,hadoop框架工作是不適合的。

來到單機和僞分佈式模式,一方面ü應該考慮的是文件的規模和單機和僞分佈式模式第二個是實際的差異。

在獨立模式下,沒有HDFS的概念,數據不會被複制到hadoop分佈式文件系統(顯然可以節省時間)。在僞分佈模式下,涉及需要複製數據的hdfs處理。

小尺寸數據文件更適合使用傳統文件處理,如果文件大小變得巨大而且巨大,hadoop框架會提供更好的處理時間! 希望這有助於!

+0

這需要嚴肅的編輯。將其分成段落並在適當的地方使用格式。 – David