雖然我正在經歷的Hadoop明確的指導,我被困在下面的句子: -什麼是「HDFS寫入管道」?
寫減產不佔用網絡帶寬,但只作爲 多爲正常的HDFS寫入流水線消耗。
問題: 1.可以幫助我更詳細地瞭解上面的句子。 2.「HDFS寫入管道」是什麼意思?
雖然我正在經歷的Hadoop明確的指導,我被困在下面的句子: -什麼是「HDFS寫入管道」?
寫減產不佔用網絡帶寬,但只作爲 多爲正常的HDFS寫入流水線消耗。
問題: 1.可以幫助我更詳細地瞭解上面的句子。 2.「HDFS寫入管道」是什麼意思?
當文件寫入HDFS時,很多事情都會在HDFS塊一致性和複製相關的幕後進行。這個過程的主要IO組件是迄今爲止的複製。還有與註冊該塊的存在和狀態的名稱節點的雙向通信。
我認爲,當它說:「寫管道」,它只是意味着過程:
可以理解爲如下: -
*數據管道正在寫數據到數據節點和沒有。要寫入的datanodes由複製因子決定,默認爲3.
*由於reduce輸出將存儲在3個不同的節點,這是由數據管道決定的。因此,網絡消耗將等於數據管道與數據一起寫入。
*我們可以通過下圖來理解,其中HDFS客戶端從NN獲取數據管道的位置,並通過握手過程寫入到它(握手過程稍微複雜一點,我們不會詳細介紹)BTW圖取自Cloudera's site