1
我對這個話題做了相當多的研究,但對於找到的答案還不滿意。有人說,它不僅僅取決於大小,還有許多其他因素會影響,而另一些人則說,它需要在幾TB的大小範圍內才能看到hadoop的真實性質。那麼,測試hadoop在類似java程序上運行的最小輸入數據大小是多少?要查看hadoop的好處,文件的最小數據大小是多少?
我對這個話題做了相當多的研究,但對於找到的答案還不滿意。有人說,它不僅僅取決於大小,還有許多其他因素會影響,而另一些人則說,它需要在幾TB的大小範圍內才能看到hadoop的真實性質。那麼,測試hadoop在類似java程序上運行的最小輸入數據大小是多少?要查看hadoop的好處,文件的最小數據大小是多少?
確實,這取決於不同的事情。我會想象它至少取決於以下幾點:
一般來說,您擁有的數據越多,越複雜,Hadoop與「常規」Ja相比的表現就越好VA程序。我可以給你一些限制。
從「Hadoop的採購指南」(羅伯特·D·施耐德)本小書,任期定義「大數據」應該給你也有一些指導:
大數據趨向於描述一個或多個的以下特徵
- 囊括大量信息
- 包括各種數據類型的和格式
- 由不同的源生成的
- 保留很長時間
- 通過新的和創新的應用
我正在1GB的文件在Hadoop和我對這個結果作爲簡單的Java不寒而慄運行速度遠遠超過4個節點的Hadoop已用。我無法理解這背後的原因。你認爲1GB文件太小而無法看到hadoop的效果嗎? – re3el 2014-10-27 12:33:38
這真的取決於。通常術語「大數據」與TB的大小相關,而不是千兆字節。在任何意義上我都不會稱1GB大。 – 2014-10-27 13:56:48
@Trinimon:請看看上面的問題 – re3el 2014-10-28 06:25:21