2013-09-24 69 views
0

我仍在學習配置單元。爲了理解蜂巢中的桶的概念,我已經提到了幾本書。我學到的是,如果我們強制分組,它將創建與桶數相同的文件數量。在配置單元中的bucketed table中遞增加載數據?

在我的情況,我將逐步加載數據分時段表,每天五次。 例如:如果我有16個桶的表,那麼每個負載將基於散列/樣本創建16個文件。所以完全5次運行,將創建80個文件。

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ? 

回答

1

您是否爲每次增量加載創建不同的表?

其Hadoop發行版是您使用

我使用的相同的策略和每個增量加載生成(和覆蓋)相同的編號i定義桶。

當我們有問題,有重複文件,因爲蜂巢表用蜂巢用戶創建和填充與另一個(HDFS)製成的權限。

看看你/用戶/蜂巢/倉庫目錄的所有者/表目錄的權限,然後看看在子目錄相同(所有者/權限)

+0

不,我使用的每一個相同的表加載。我計劃繼續追加數據。當我爲每個存儲桶分配多個文件時,我正在嘗試查看是否會給我提供存儲桶優點。 – hjamali52

+0

我們使用這種情況插入覆蓋與工會增量數據和舊增量數據的結果。實際上,舊增量數據的一部分,新增量數據中沒有的部分(用左連接過濾) – chech0x

+0

在**這種**方式(插入覆蓋聯合)中,您擁有相同數量的存儲桶文件。 – chech0x

相關問題