使用hdfs：//和火花中的紗線之間的區別

使用hdfs：//和spark中的紗線在使用集羣模式保存和加載保存文件之間有什麼區別？使用hdfs：//和火花中的紗線之間的區別

2016-03-28 J.Done

從你的問題here，我顯然猜測你對HDFS和YARN的理解是不正確的。

YARN是一個通用的作業調度框架，HDFS是一個存儲框架。

紗線堅果殼具有碩士（資源管理器）和職工（節點管理器），

資源管理器對工人造成的容器來執行MapReduce作業，火花的作業等對

HDFS另一方面有一個主（名稱節點）和工作者（數據節點）來保存和檢索文件。

您不需要YARN與HDFS通信，它是一個獨立的實體。

在生產環境中，HDFS worker（數據節點）和YARN worker（節點管理器）安裝在一臺計算機上，以便處理框架可以使用來自最近本地數據節點（數據位置）的數據。

在集羣模式下在YARN集羣上使用spark意味着YARN集羣中的一個工作節點充當提交spark工作的客戶端。

因此，使用hdfs：//顯然會使spark工作受益，因爲spark執行器會從最近的數據節點讀取數據。

YARN和HDFS配置將從客戶端計算機上的HADOOP_CONF_DIR（可以是客戶端模式下的本地計算機，以及集羣模式下的其中一個工作者節點）讀取。

2016-03-28 12:55:51

據我所知，所有節點都需要紗線和主節點需要jar和hdfs。對？我試圖在horontworks上使用hdfs，可以嗎？ –

回答