我正在像tableA的蜂巢查詢偏斜數據左連接上tableA.col1 = tableB.col1和tableA.col2 = tableB.col2 tableB的。 tableA擁有18億個數據,tableB擁有3100萬個記錄。現在,在我參加的最後減速是沒有得到完成,並且運行長。造成長時間運行的查詢在蜂巢
這可能是因爲偏斜數據。我也試過MAPJOIN和查詢失敗,因爲TableA的龐大的數據量。還有其他的選擇可以以更好的方式處理嗎?
,我可以看到運行的長期任務是如下
reduce > copy task(attempt_1498868574233_185232_m_001336_0 succeeded at 8.94 MB/s) Aggregated copy rate(1121 of 2532 at 108.94 MB/s)
正是它試圖在這一步呢?
在這裏看到:https://stackoverflow.com/a/37414611/2700344 – leftjoin
@leftjoin,無須手動變通。 Hive支持傾斜連接。 –