2013-10-30 43 views
1

我剛剛在HDInsight中設置了Hadoop集羣,並試圖開始使用Hadoop。我已啓用集羣上的遠程登錄並登錄到它。我已將要處理的數據從我的桌面複製到此框中。該文檔將此框稱爲頭節點,並具有將數據複製到hadoop羣集的附加步驟。這使我困惑。Azure HDInsight:hadoop集羣中的頭節點是什麼?

我有以下問題:

  1. 當我複製從桌面到數據我登錄到禁區,didnt它實際上的數據複製到Hadoop的?

  2. 第一次複製操作與第二次複製操作有什麼不同?

  3. 什麼是Hadoop中的頭節點?

+0

只是好奇你爲什麼沒有把答案標記爲正確的答案。有什麼缺失?我發現問題和答案相當豐富。 –

回答

6

HDInsight集羣中的頭節點是機器運行組成Hadoop平臺的一些服務,包括名稱節點和作業跟蹤器。廣義地說,控制數據的位置以及計算分別發生在哪裏。

要使用HDInsight,您並不需要登錄到此頭節點,並且您不需要需要才能使用遠程桌面來使用它。我建議使用PowerShell的方法http://blogs.msdn.com/b/carlnol/archive/2013/06/07/managing-your-hdinsight-cluster-with-powershell.aspx爲您提供了一個很好的指導來建立。

就複製數據到集羣而言,這與將數據複製到頭節點(這只是一臺機器)不同。設置HDInsight羣集時,還可以將其鏈接到Azure存儲帳戶。您需要將數據上傳到Blob存儲帳戶,以使其可以訪問羣集。有一些很好的工具可以幫助解決這個問題,我建議Azure Explorer - 披露:我爲製作它的人工作,但它是免費的:)。

+0

名稱節點和作業跟蹤器都在同一個盒子上運行?這在典型的hadoop基礎設施中通常如此?另外,擁有多個名稱節點以避免單點故障並不常見? HDInsight不適合這個嗎? – Aadith

+0

您當然可以將名稱節點和作業跟蹤器分開,並且可能應該根據羣集的規模,但對於HDInsight中合理大小的事情,可以。可以有一個輔助名稱節點,它是一種熱備份,但在Hadoop版本<2中,名稱節點是單點故障。在Hadoop 2 +中,有一些名稱節點恢復能力,儘管目前在HDInsight中並不是真正可用(2013年第4季度)。 –

+0

謝謝。對Hadoop來說很新,並且試圖基本上在Azure上運行第一次運行。我正在閱讀Hadoop,特別是Namenodes和Datanodes。這些分別與Azure的Head Nodes和Worker Nodes相同嗎? (此外:關閉主題,但如果有人對初學者有任何好的文檔,我會非常感激,迄今爲止沒有運氣。) – kuanb