我需要在HDFS上存儲大約10TB的大文件。我需要了解的是HDFS如何存儲這個文件。假設羣集的複製因子是3,並且每個節點上有10個節點的磁盤空間超過10 TB的羣集,即總羣集容量超過100TB。在hadoop HDFS中存儲大文件?
現在HDFS會隨機選擇三個節點並將文件存儲在這三個節點上。那麼這聽起來很簡單。請確認?
或者HDFS是否將文件拆分爲 - 分別稱爲每個1TB的10個拆分,然後將每個拆分存儲在隨機選擇的3個節點上。所以分裂是可能的,如果是的話,它是通過它啓用的配置方面。 如果HDFS必須分割二進制或文本文件 - 它是如何分割的。只需按字節。
除非您打算使用的格式是可分割的,否則這是一個糟糕的主意。從HDFS的角度來看,這並不重要,但對於MapReduce而言,如果它不可分割,則只有一個映射器能夠處理所述文件。 –