2014-10-27 28 views
1

我對這個話題做了相當多的研究,但對於找到的答案還不滿意。有人說,它不僅僅取決於大小,還有許多其他因素會影響,而另一些人則說,它需要在幾TB的大小範圍內才能看到hadoop的真實性質。那麼,測試hadoop在類似java程序上運行的最小輸入數據大小是多少?要查看hadoop的好處,文件的最小數據大小是多少?

回答

3

確實,這取決於不同的事情。我會想象它至少取決於以下幾點:

  • 文件大小(S)
  • 數據類型和格式
  • 簇的大小和性能計算的
  • 類型的集羣之間
  • 網絡連接和分析

一般來說,您擁有的數據越多,越複雜,Hadoop與「常規」Ja相比的表現就越好VA程序。我可以給你一些限制。

從「Hadoop的採購指南」(羅伯特·D·施耐德)本小書,任期

定義「大數據」應該給你也有一些指導:

大數據趨向於描述一個或多個的以下特徵

  • 囊括大量信息
  • 包括各種數據類型的和格式
  • 由不同的源生成的
  • 保留很長時間
  • 通過新的和創新的應用
+0

我正在1GB的文件在Hadoop和我對這個結果作爲簡單的Java不寒而慄運行速度遠遠超過4個節點的Hadoop已用。我無法理解這背後的原因。你認爲1GB文件太小而無法看到hadoop的效果嗎? – re3el 2014-10-27 12:33:38

+2

這真的取決於。通常術語「大數據」與TB的大小相關,而不是千兆字節。在任何意義上我都不會稱1GB大。 – 2014-10-27 13:56:48

+0

@Trinimon:請看看上面的問題 – re3el 2014-10-28 06:25:21

相關問題