0
這可能是一件簡單的事情,但我努力尋找答案。將數據加載到HDFS時,將其分發並加載到多個節點中。數據被分區和分配。
對於HIVE,可以單獨選擇PARTITION數據。我很確定,即使您沒有提到PARTITION選項,當加載配置單元表時,數據將被拆分並分發到羣集上的不同節點。這個命令在這種情況下會帶來什麼額外的好處。HDFS vs HIVE分區
這可能是一件簡單的事情,但我努力尋找答案。將數據加載到HDFS時,將其分發並加載到多個節點中。數據被分區和分配。
對於HIVE,可以單獨選擇PARTITION數據。我很確定,即使您沒有提到PARTITION選項,當加載配置單元表時,數據將被拆分並分發到羣集上的不同節點。這個命令在這種情況下會帶來什麼額外的好處。HDFS vs HIVE分區
HDFS分區:主要處理節點上文件的存儲。爲了容錯,文件跨羣集複製(使用複製因子)
Hive分區:這是Hive中的一項優化技術。 在Hive DB中,存儲表並在查詢時更好地實現分區。 分區提供了有關數據如何存儲在配置單元以及如何讀取數據的信息。 Hive分區可以在表數據的列級別上進行控制。
分配與它無關(分區)。這與本地文件系統中的概念完全相同。 –
分區將數據存儲在每個分區的子目錄中。當按分區列篩選時,配置單元只會掃描篩選器中指定的子目錄,這將爲您提供更好的性能。正如@DuduMarkovitz所說,這與HDFS數據分發和複製完全無關。 – Andrew
糾正我,如果我錯了。將數據加載到配置單元表中時,將數據分段或分塊並保存在羣集中的不同節點上。我的假設是,即使分割數據也是一樣的。即使在HIVE中使用PARTITIONED時,數據在文件夾和子文件夾中排列,其仍然作爲HDFS中的塊保存。如果是的話,在這種情況下分區做什麼。它提供了什麼額外的好處。 – kris