2011-07-07 65 views

回答

16

檢查這個article了。 Dremel是蜂巢未來應該(而且將會)的未來。

MapReduce及其上的解決方案(如Pig,Hive等)的主要問題是它們在運行作業和獲得答案之間存在固有延遲。的Dremel使用一個完全新的方法(在2010年那篇論文就出來了由谷歌),這...

...使用基於聚合樹一個新的查詢執行引擎...

。幾乎實時運行,interactive AND adhoc查詢兩個MapReduce都不能。豬和蜂巢不是實時

你應該留意一下projects出來這個。對我而言,這對我來說也是很新的......所以歡迎其他專家的評論!

編輯:的Dremel是什麼HIVE的未來(而不是MapReduce的就像我之前提到的)應該是。 Hive現在提供了一個SQL界面來運行MapReduce作業。 Hive具有非常高的延遲,因此在臨時數據分析中不太實用。 Dremel通過使用與MapReduce不同的技術爲數據提供了非常快速的SQL接口。

+0

好的,但是Storm軟件呢? – kirugan

+4

想要添加上面的細節,請看Apache Drill,它是Google的Dremel的開源實現。 –

3

MapReduce是一個抽象算法,用於如何分解問題,分發問題併合並結果。 Dremel似乎是查詢和分析數據集的特定工具。

34

DremelMapReduce不能直接比較,而是它們是互補技術。

MapReduce並不是專門爲分析數據而設計的,而是一個軟件框架,它允許一組節點來處理大型數據集的分佈式計算問題。

Dremel是一個數據分析工具,用於快速在大型結構化數據集(如日誌或事件文件)上運行查詢。它支持類似SQL的語法,但除了表追加外,它是隻讀的。它不支持更新或創建函數,也不支持表索引。數據以「列式」格式組織,這有助於快速查詢。 Google的BigQuery產品是可通過RESTful API訪問的Dremel實現。

Hadoop(MapReduce的開源實現)與「Hive」數據倉庫軟件一起使用,還允許使用SQL風格的語法對海量數據集進行數據分析。 Hive本質上將查詢轉換爲MapReduce函數。與使用ColumIO格式相反,Hive嘗試使用表索引等技術快速查詢。

+1

btw,輸入是隻讀的,但您可以實現Dremel查詢的輸出以供將來重用 –

相關問題