0
我仍在學習配置單元。爲了理解蜂巢中的桶的概念,我已經提到了幾本書。我學到的是,如果我們強制分組,它將創建與桶數相同的文件數量。在配置單元中的bucketed table中遞增加載數據?
在我的情況,我將逐步加載數據分時段表,每天五次。 例如:如果我有16個桶的表,那麼每個負載將基於散列/樣本創建16個文件。所以完全5次運行,將創建80個文件。
My Question is , if i have table with 16 buckets defined on it with 80 files
in HDFS, will it going to give bucketing benefits ?
不,我使用的每一個相同的表加載。我計劃繼續追加數據。當我爲每個存儲桶分配多個文件時,我正在嘗試查看是否會給我提供存儲桶優點。 – hjamali52
我們使用這種情況插入覆蓋與工會增量數據和舊增量數據的結果。實際上,舊增量數據的一部分,新增量數據中沒有的部分(用左連接過濾) – chech0x
在**這種**方式(插入覆蓋聯合)中,您擁有相同數量的存儲桶文件。 – chech0x