2014-10-26 50 views
0

我有一個平面文件person.txt,我有以下字段 ID,名稱,狀態得到每天,DOB加載配置單元時段的表平面文件遞增

我有一個蜂巢表-Person這是由分區狀態,並由Id(30桶)推動。 1)有沒有辦法直接將person.txt加載到Person中,以便創建30個存儲桶? 目前我有一箇中間表,充當從數據加載到人的階段層

2)我每天以增量方式接收person.txt。有沒有辦法以增量方式加載Person,以便始終維護30個存儲桶。當我從Staging表寫入時,插入覆蓋將清除所有內容,因此我必須在Staging中保留person.txt的完整歷史記錄,並且顯然整個事件存在於Person中,並且由於複製因子爲3. 1 TB變爲6 TB。

任何指針,將有助於

回答

0

添加第二個分區的狀態劃分後的表像batchid。 每次載入新文件時都提供批處理運行編號作爲分區值,以便新文件進入新分區併爲每個負載創建30個存儲桶。

插入重寫表PERSON分區(狀態,batchid)選擇...

OR

LOAD數據本地INPATH改寫成表PERSON分區(batchid = 1);