我有一些日誌數據,有場在HIVE中,分區列不是基礎保存數據的一部分?
- ID,tdate,資訊
我創建了一個動態的分區表
CREATE TABLE log_partitioned(id STRING, info STRING)
PARTITIONED BY (tdate STRING)
,然後我加載數據
FROM logs lg
INSERT OVERWRITE TABLE log_partitioned PARTITION(tdate)
SELECT lg.id, lg.info, lg.tdate
DISTRIBUTE BY tdate;
它成功加載數據通過動態分區。但是當我試圖看看數據在
hdfs dfs -cat /user/hive/warehouse/log_partitioned/tdate=2000-11-05/part-r-00000
只有兩列的值在那裏。
ID1,INFO1
ID2,INFO2 ....
如果我們運行蜂巢查詢
select * from log_partitioned limit 10
它顯示了所有三列。我應該怎麼做該配置單元還將分區列存儲在底層數據中?
爲什麼你在意Hive如何在內部存儲數據? – Olaf