2012-10-22 34 views
0

我想了解當數據需要通過HDFS訪問時發生的每一個步驟。我在哪裏可以找到HDFS上的寫/讀操作的一步一步解釋。通過hadoop訪問數據?一步一步的解釋

我很清楚namenode包含特定於文件系統的元數據。但我想知道在namenode上存儲的數據到底是什麼。這是我的猜測: 隨着單個數據節點使用它們託管的各個塊的塊信息更新namenode,當它們啓動時,namenode只有文件名(具有完整的目錄結構)和塊號該文件的數據存儲在。每當讀/寫進來時,它都會根據名稱節點存儲在內存中的反向映射來寫入/讀取名稱節點中的塊編號並接近數據節點(地圖由數據節點出現時由其創建並更新)告訴文件操作n哪個數據節點承載了哪個塊號,以及哪些數據節點需要向其寫入/讀取信息。這只是一個猜測,並希望有人能證實這一點。此外,映射器是如何從指定爲映射縮減作業的輸入的文件中讀取的,唯一的區別是作業跟蹤器可以執行確定數據節點和產生相應數據節點上的映射器的工作?

回答

2

在哪裏可以找到HDFS上的寫入/讀取操作的逐步說明。

檢查this漫畫從HDFS讀/寫數據。它不涉及API級別的細節,而是在高層次上進行描述。此外,有關HDFS的文章this很有趣。

我很清楚namenode包含特定於文件系統的元數據。但我想知道在namenode上存儲的數據到底是什麼。

可以使用這些instructions離線轉儲HDFS元數據內容。

+0

這真的很有用,尤其是漫畫! :) –