1
我正在測試我的數據集部分中的最新Hive。這只是幾GB的日誌文件,我通過自定義的SerDe讀取。如何在Apache Hive中爲(小)數據集並行化查詢
當運行簡單GROUP BY的查詢(4個MR作業),我正在日誌如
- 地圖:100%
- 降低率:0%
- 圖:85%
- 降低率:0%
- 地圖:86%
- 降低率:0%
一直只使用8核心服務器上的一個核心。一種浪費...
我已經激活了並行選項,但它仍然不會並行化。我已將減少作業的數量設置爲8.
我的期望是,由於我的數據集是分區的(=>不同文件),因此至少有一些map-reduce階段可以在這些文件上並行運行。
我理解錯了嗎?有沒有特定的方式來編寫查詢?
感謝
感謝您的回答。事實證明,這主要是因爲我在本地模式下進行了驗證測試,因此它不會同時啓動多個任務。只要我改變爲一個僞羣集,並允許它運行多個地圖並按照您的建議平行減少,它就可以工作! – 2011-03-30 10:50:35