我有一個大的日誌文件,我加載到HDFS
。根據機架感知,HDFS
將複製到不同的節點。Hive是否重複數據?
現在我將同一個文件加載到配置單元表中。這些命令如下:
create table log_analysis (logtext string) STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/';
LOAD DATA INPATH '/user/log/apache.log' OVERWRITE INTO TABLE log_analysis;
現在,當我去看看「/用戶/蜂巢/倉儲/」目錄下有一個表文件,並將其複製到本地,它擁有所有的日誌文件數據。
我的問題是:在HDFS
現有文件被複制。然後將該文件加載到存儲在HDFS
的配置單元表中也會被複制。
是不是相同的文件存儲6次(假設複製因子是3)?那會浪費資源。
這是正確的。因此,您必須明智地選擇您希望保留在HDFS中的數據。 – raunakjhawar
如果要選擇性地更改日誌文件(或Hive表)的複製因子,請查看http://stackoverflow.com/questions/33292277/how-to-change-hdfs-replication-factor-for-蜂房獨 –