我對Hadoop中的塊有一些疑問。我讀過Hadoop使用HDFS,它將創建特定大小的塊。HDFS中Hadoop塊的概念
首先問是塊上的硬盤實際存在類似NTFS即正常的文件系統,我們可以看到在託管的文件系統(NTFS)塊還是隻可以使用Hadoop的命令可以看到?
第二個問題 hadoop是否在運行任務之前創建塊,即每當有文件時從頭開始存在塊,或者hadoop僅在運行任務時才創建塊。
第三個問題無論分割數量還是取決於分割之後,在分割之前是否確定並創建塊(即InputFormat類的getSplits方法)?
第四個問題之前和運行任務相同或它所依賴的配置後的街區,有兩種類型的塊一個用於存儲文件和一個用於分組的文件,並將它們發送通過網絡將數據執行任務的節點?
感謝親愛的回覆,關於我的第一個問題,我的意思是如果我可以從Windows中的資源管理器中看到託管文件系統的塊。關於第二個問題,你說「輸入拆分存在於Datanodes中」我認爲你在拆分(邏輯)和塊(物理)之間混在一起,因爲塊存在於Datanodes而不是拆分中。 –
仍然我的主要問題沒有得到解答:在分割之前(即在執行getSplits之後和運行映射器之前),分割之前的塊(即,從InputFormat類執行getSplits並且在運行映射器之前)與分割之後相同(如果知道,請告訴我並感謝爲你的合作。 –
我已經更新了我的答案 –