我有以HDFS文本形式存儲的日誌文件。當我將日誌文件加載到Hive表中時,所有文件都被複制。是否可以在不復制數據的情況下將數據導入Hive表中
我可以避免將所有文本數據存儲兩次嗎?
編輯:我通過以下命令加載它
LOAD DATA INPATH '/user/logs/mylogfile' INTO TABLE `sandbox.test` PARTITION (day='20130221')
然後,我能找到完全相同的文件中:
/user/hive/warehouse/sandbox.db/test/day=20130220
我以爲它被複制。
How do you say,它的複製?你如何將它們加載到配置單元表中? – 2013-03-07 12:26:12
我通過'LOAD DATA INPATH'xxx'INTO TABLE yyy'(見文章編輯)加載它,然後在'/ user/hive/warehouse'中找到該文件。我想知道它是否可以離開它(我想我將不得不在我的目錄中強制執行分區結構,但這很好) – 2013-03-07 13:11:39
它如何存儲在HDFS中? – 2013-03-07 13:12:08