假設如果我將hdfs中的文件加載到配置單元表中,那麼該文件的總副本數是多少。在hdfs文件中複製了3次,現在複製到配置單元表中會產生額外的副本,總和可達6個副本?將hdfs文件複製到配置單元表中後的複製文件總數
回答
在HDFS中,副本數量基於複製因子集。 就你而言,由於複製因子是3,所以會有三個副本。
當你做一個sqroop從hdfs導入配置單元(進入內部表)時,數據僅從hdfs上的一個位置複製到配置單元中的表。但是,Hive數據的複製又是基於您的複製因素而發生的。
在總你將結束與3(HDFS)+ 1(配置單元複製)* 3 => 3copies上HDFS和由配置單元存儲的數據的3個拷貝(這不是6份,作爲蜂巢不以相同的文件格式存儲數據)。
OR
如果你做一個LOAD DATA INPATH
到內部表舊副本丟失,只有較新的蜂巢副本存在。所以你最終將只有一個配置單元表(及其複製副本)。
在你的情況下,3個蜂巢表副本(因爲rep設置爲3)。
OR
如果創建一個外部表,則不會創建任何新的副本。數據的元數據由Hive創建。所以你最終得到你的HDFS副本+ Hive元存儲副本。
就你的情況而言,3份拷貝在HDFS + 3份拷貝中存儲在Hive上的meta數據。
是的,我同意,首先我們在HDFS中有3個副本,數據只從一個位置複製。 Hive也將數據存儲到hdfs,因此,當hive將單個副本推入hdfs時,它將再次被複制3次。所以它總和爲6. –
@TarunChunchu是的,該數據也被複制三次,但不是6份。在內部表格的情況下,它的3份HDFS和3份Hive數據(存儲方式不同)。爲了清晰起見,我更新了答案。 –
乾杯。現在清楚了,謝謝你阿尼。 –
- 1. 將文件複製到HDFS時出錯
- 2. 如何將文件複製到HDFS?
- 3. 將文件從FTP複製到HDFS
- 4. Hadoop將本地文件複製到HDFS?
- 5. 將文件複製到HDFS Hadoop
- 6. 使用java將hdfs文件複製到另一個hdfs位置
- 7. 將文件系統中的文件(圖像)複製到HDFS
- 8. Excel VBA複製查詢將表單中的數據複製到文本文件
- 9. 複製文件從本地到HDFS
- 10. 如何將文件從HDFS複製到本地文件系統
- 11. 將本地文件複製到hdfs需要在hdfs集羣上?
- 12. 如何在將帶有hdfs的orc文件複製到該表中的文件夾後更新配置單元表數據
- 13. 將文件複製到HDFS時,如何控制文件所在的節點?
- 14. 在Windows 7中將用戶配置文件複製到默認配置文件
- 15. 將csv文件複製到PostGIS表中
- 16. 將s3中的文件複製並提取到HDFS
- 17. 將匹配行復制到新文件
- 18. 將文件複製文件
- 19. 將文本文件複製到數組
- 20. 將文件複製到svn
- 21. 將文件複製到Hashtable
- 22. 將文件複製到數組中(Java)
- 23. 將RegLoadKey從影子副本中複製到配置單元文件
- 24. 如何將文件從本地文件系統複製到HDFS文件系統?
- 25. 將文件複製到多個位置
- 26. 如何在複製文件時將文件複製到python文件夾中
- 27. 將sqlite文件複製到Documents文件夾後,文件變空
- 28. 將文件夾複製到文件夾
- 29. 將.tar.gz文件複製到文件夾
- 30. 將文件複製到文件夾
請您詳細說明一下。 –
是複製是HDFS的一部分。 – TKHN
假設我在hdfs /sample.txt文件中默認已經複製了3次。現在我創建了一個samp hive表,並將sample.txt加載到它中,然後爲了samp表再次生成3個sample.txt副本。所以我覺得在技術上我們有六份sample.txt。這個假設是否正確? –