使用hdfs://和spark中的紗線在使用集羣模式保存和加載保存文件之間有什麼區別?使用hdfs://和火花中的紗線之間的區別
0
A
回答
2
從你的問題here,我顯然猜測你對HDFS和YARN的理解是不正確的。
YARN是一個通用的作業調度框架,HDFS是一個存儲框架。
紗線堅果殼具有碩士(資源管理器)和職工(節點管理器),
資源管理器對工人造成的容器來執行MapReduce作業,火花的作業等對
HDFS另一方面有一個主(名稱節點)和工作者(數據節點)來保存和檢索文件。
您不需要YARN與HDFS通信,它是一個獨立的實體。
在生產環境中,HDFS worker(數據節點)和YARN worker(節點管理器)安裝在一臺計算機上,以便處理框架可以使用來自最近本地數據節點(數據位置)的數據。
在集羣模式下在YARN集羣上使用spark意味着YARN集羣中的一個工作節點充當提交spark工作的客戶端。
因此,使用hdfs://顯然會使spark工作受益,因爲spark執行器會從最近的數據節點讀取數據。
YARN和HDFS配置將從客戶端計算機上的HADOOP_CONF_DIR(可以是客戶端模式下的本地計算機,以及集羣模式下的其中一個工作者節點)讀取。
相關問題
- 1. 什麼使紗線快? npm和紗線之間的主要區別?
- 2. 蟒蛇火花/紗線內存使用
- 3. hadoop中本地和紗線之間的區別
- 4. hdfs movefromlocal和copyFromLocalFile之間的區別
- 5. 火花獨立模式和本地模式之間的區別?
- 6. mapreduce分割和火花分割之間的區別
- 7. 紗線 - 執行火花的工作
- 8. 用紗線進行火花聚類
- 9. 在紗線集羣上安裝火花
- 10. 火花上保存和HDFS
- 11. 如何使用haddop的hdfs與火花
- 12. 紗線和集羣模式下的打印火花命令
- 13. 紗線上的火花:如何防止計劃多個火花工作
- 14. 使用virtualenv以紗線/火花集羣模式運行python
- 15. BackgroundWorker和線程之間的區別?
- 16. thread.start()和executor.submit(線程)之間的區別
- 17. 過度利用帶有火花的紗線資源
- 18. 通過Zeppelin應用殺死紗線上的火花
- 19. 如何訪問紗線羣中的火花事件日誌
- 20. 中繼線和用戶線之間的區別
- 21. 火花緩存區別2.0.2和2.1.1
- 22. 火花使用log4j登錄到HDFS
- 23. 火與發佈之間的區別
- 24. 使用ID和onClick之間的區別
- 25. 使用AsyncTask.get()和onPostExecute()之間的區別
- 26. 使用StringTokenizer和String.split()之間的區別?
- 27. 使用Trace和TraceSource之間的區別
- 28. 使用@OneToMany和@ManyToMany之間的區別
- 29. 使用`MySql.Data`和`MySql.Data.MySqlClient`之間的區別
- 30. Oracle一致性和Hadoop HDFS之間的區別
據我所知,所有節點都需要紗線和主節點需要jar和hdfs。對?我試圖在horontworks上使用hdfs,可以嗎? –