我只是想更多地瞭解下面的語句。當我試圖瞭解how the HDFS writes happens to Data nodes。我得到了關於HDFS寫入的下面的解釋。將文件複製到DataNode時,Hadoop HDFS中的數據流管道
爲什麼hdfs客戶端向數據節點發送4kb而不是將整個塊64MB發送到數據節點?可以詳細解釋一下嗎?
爲了獲得更好的性能,數據節點爲數據傳輸維護一條管道。數據節點1無需等待完整的數據塊到達,然後才能開始傳輸到流中的數據節點2。實際上,給定塊的從客戶端到數據節點1的數據傳輸發生在4KB的較小塊中。當數據節點1從客戶端接收到第一個4KB塊時,它將該塊存儲在其本地存儲庫中,並立即開始將其傳送到流中的數據節點2。同樣,當數據節點2接收來自數據節點1的第一個4KB塊時,它將該塊存儲在其本地存儲庫中,並立即開始將其傳送到數據節點3.這樣,流中除最後一個之外的所有數據節點都從並將其轉移到流中的下一個數據節點,以避免每個階段的等待時間,從而提高寫入性能。
可以添加您發佈的內容的來源? – mrsrinivas
http://www.informit.com/articles/article.aspx?p=2460260&seqNum=2。 –