我是新來的蜂巢,並閱讀了瓢潑大雨和MapSide加入蜂巢桶裝尺寸基於
「地圖加入可以利用分時段表(桶),因爲一個映射器在左表一桶只需要工作加載右表的相應的水桶執行連接。用於連接的語法是相同的用於同MEMOR ....」
假設我創建一個表作爲
CREATE TABLE bucketed_users (id INT,名稱STRING) CLUSTERED BY(id)INTO 4 BUCKETS;
我的問題是
1>所有4桶是否具有相同的大小?還是會依賴於數據中id的頻率?即如果一個id重複很多,相關桶將比其他桶更大。
2>會不會有與id相關的數據存在於兩個不同桶中的場景?即一個ID的記錄存在於存儲桶1中,另一個記錄存儲在存儲桶4中。
如果是,那麼優化程序如何處理分段數據?
如果有人試過這個,如果他們能分享他們的經驗,那將是非常好的。