2016-03-28 60 views

回答

2

從你的問題here,我顯然猜測你對HDFS和YARN的理解是不正確的。

YARN是一個通用的作業調度框架,HDFS是一個存儲框架。

紗線堅果殼具有碩士(資源管理器)和職工(節點管理器),

資源管理器對工人造成的容器來執行MapReduce作業,火花的作業等對

HDFS另一方面有一個主(名稱節點)和工作者(數據節點)來保存和檢索文件。

您不需要YARN與HDFS通信,它是一個獨立的實體。

在生產環境中,HDFS worker(數據節點)和YARN worker(節點管理器)安裝在一臺計算機上,以便處理框架可以使用來自最近本地數據節點(數據位置)的數據。

在集羣模式下在YARN集羣上使用spark意味着YARN集羣中的一個工作節點充當提交spark工作的客戶端。

因此,使用hdfs://顯然會使spark工作受益,因爲spark執行器會從最近的數據節點讀取數據。

YARN和HDFS配置將從客戶端計算機上的HADOOP_CONF_DIR(可以是客戶端模式下的本地計算機,以及集羣模式下的其中一個工作者節點)讀取。

+0

據我所知,所有節點都需要紗線和主節點需要jar和hdfs。對?我試圖在horontworks上使用hdfs,可以嗎? –