2016-03-14 62 views
7

我聽說新術語Data Lake。我GOOGLE了,得到了Hadoop Vs Data Lake

數據湖是一個大型的存儲庫和處理引擎。數據湖爲任何類型的數據提供「大容量存儲,巨大的處理能力和處理幾乎無限的併發任務或作業的能力」

術語數據湖通常與面向Hadoop的對象存儲相關聯。在這種情況下,首先將組織的數據加載到Hadoop平臺中,然後將業務分析和數據挖掘工具應用於駐留在Hadoop的商品計算機羣集節點上的數據。

同樣的事情是由Hadoop完成的。我們有HDFS for Storage和MapReduce for Computation。 我對Hadoop和Data湖有點混淆。兩者有什麼區別。如果它們與此術語出現的原因相同。或者如何定義數據湖。

+0

更多選擇和使用業務分析框架? hadoop需要更多的瞭解如何將外部分析算法集成到MapReduce中,如果我沒有弄錯的話 – AchmadJP

+0

我今天聽說過它的可憐我。 LOL –

回答

9

Data Lake是一個抽象的「想法」。 Hadoop是特定的技術/軟件。您可以使用hadoop或使用不同的工具來實現數據湖。

+0

這意味着HDFS和數據湖可能是一樣的 –

+0

@KishoreKumarSuthar HDFS只是一個文件系統。所以不行。 – Havnar

+0

@Havnar根據維基百科,是的。 「數據湖的一個例子是Apache Hadoop中使用的分佈式文件系統。」 – Enrique

4

Data Lake是一種在系統中存儲數據的方法,該系統有助於變體模式和結構形式(通常是對象blob或文件)中的數據整理。

數據湖的概念與Apache Hadoop及其開源項目生態系統密切相關。數據湖的所有討論都很快就會描述如何使用Apache Hadoop生態系統的力量構建數據湖。它很受歡迎,因爲它提供了一種符合成本效益和技術上可行的方式來應對大數據挑戰。組織 正在發現數據湖作爲他們現有數據架構的演變。

Following whitepaper將用作構建Hadoop數據湖的一個優秀示例。

1

我想說這個問題太過分了。

「Oracle vs Database」。

數據湖是將數據存儲在系統或存儲庫內的方法。 Hadoop參考了這個技術,Hadoop是一個用於存儲數據的開源軟件框架。 因此數據湖的一個例子就是Hadoop中使用的分佈式文件系統。

+2

我想說一個Data Lake是您可以使用Hadoop或其他技術做的事情之一,但並非所有的Hadoop應用程序都是Data Lake。 – Rich

相關問題