請解釋一下或提供關於分配的真的在蜂巢中的配置的鏈接嗎? 它如何控制一個文件發送到一個特定的reducer?配置單元中的分配子句
2
A
回答
14
DISTRIBUTE BY控制地圖輸出是如何減速器之間分配。默認情況下,MapReduce的計算由映射器上的按鍵輸出的散列函數,並嘗試使用哈希值可用減速器之間均勻分佈的鍵值對。 假設我們希望將一列中每個值的數據一起捕獲。我們可以使用DISTRIBUTE BY來確保每個記錄到同一個reducer。 DISTRIBUTE BY作品在這個意義上,它控制減速器如何接收行處理類似GROUP BY,需要注意的是蜂巢需要分發BY子句來排序BY子句之前,如果它在相同的查詢。
0
您可以在官方文檔here。
3
DISTRIBUTE BY是一個很好的解決方法,利用較少的內存,當你有一個內存密集型工作,Hadoop的力量,而不是使用具有唯一地圖作業的減速器。從本質上講映射器做基礎上,行的一些分組DISTRIBUTE BY指定列,這使框架使更少的工作整體,並通過對這些聚集到減速。
見https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-Dynamic-PartitionInsert
相關問題
- 1. 在配置單元的select子句中的子查詢
- 2. 配置單元中的分區表
- 3. 配置單元中的分區表
- 4. 配置單元MetaStore配置
- 5. 配置單元分區和分區
- 6. 配置單元測試的例子
- 7. 百分比的配置單元計算
- 8. 配置單元regexp_extract
- 9. 如何在配置單元中的select語句中編寫子查詢
- 10. aspose.tasks資源分配單元設置
- 11. Informatica BDE配置單元動態分區
- 12. 配置單元hbase積分時間戳
- 13. 配置單元 - 按年份劃分
- 14. 查詢多個分區配置單元?
- 15. 配置單元沒有看到分區
- 16. 配置單元-e帶分隔符
- 17. 配置單元:動態分區
- 18. 配置單元中的樞軸/轉置
- 19. 配置單元不允許冒充配置單元
- 20. 配置單元設置hive.optimize.sort.dynamic.partition
- 21. 配置單元中的分區和分區有什麼區別?
- 22. 無法更改配置單元中的分區位置
- 23. 匹配句子
- 24. 在R中匹配句子和句子?
- 25. 分支中的子模塊配置
- 26. 將值分配給嵌套的zend子表單中的元素
- 27. 重建LOB_DATA分配單元
- 28. WHERE子句的「覆蓋」配置表
- 29. 在配置單元中將配置單元從字符串更改爲雙倍
- 30. 更改子值後,未將子單元格值分配給子單元格值
如果你不使用分發由,和你正在做的聚集。 MAP-REDUCE仍然可以確保按列排列的所有組都轉到同一個縮減器,那麼爲什麼要使用'Distribute by'呢? – zinking