2016-05-30 54 views
2

雖然我正在經歷的Hadoop明確的指導,我被困在下面的句子: -什麼是「HDFS寫入管道」?

寫減產不佔用網絡帶寬,但只作爲 多爲正常的HDFS寫入流水線消耗。

問題: 1.可以幫助我更詳細地瞭解上面的句子。 2.「HDFS寫入管道」是什麼意思?

回答

2

當文件寫入HDFS時,很多事情都會在HDFS塊一致性和複製相關的幕後進行。這個過程的主要IO組件是迄今爲止的複製。還有與註冊該塊的存在和狀態的名稱節點的雙向通信。

我認爲,當它說:「寫管道」,它只是意味着過程:

  1. 創建塊
  2. 與NN
  3. 執行復制
  4. 做寫入刷新到磁盤
  5. 註冊
  6. 在整個集羣中維護塊狀態(位置,被鎖定,最後更新,校驗和等)
0

可以理解爲如下: -

*數據管道正在寫數據到數據節點和沒有。要寫入的datanodes由複製因子決定,默認爲3.

*由於reduce輸出將存儲在3個不同的節點,這是由數據管道決定的。因此,網絡消耗將等於數據管道與數據一起寫入。

*我們可以通過下圖來理解,其中HDFS客戶端從NN獲取數據管道的位置,並通過握手過程寫入到它(握手過程稍微複雜一點,我們不會詳細介紹)BTW圖取自Cloudera's site Data pipeline process