2015-06-30 61 views
0

官方指導分佈式存儲說:爲星火

如果使用本地文件系統的路徑,文件也必須在 工作器節點上相同的路徑訪問。將文件複製到 所有工作人員或使用網絡安裝的共享文件系統。

Spark是否需要某種分佈式文件系統來進行隨機播放?或者我可以複製所有節點上的輸入,而不用打擾NFS,HDFS等?

+0

如果您可以將所有數據複製到所有節點上,爲什麼您需要Spark?在一臺計算機上本地處理數據可能會更快更輕鬆。只是一個建議。 – kostya

回答

1

Spark不依賴分佈式文件系統進行隨機播放。與傳統的映射縮減不同,Spark不需要寫入HDFS(或類似的系統),而是通過跟蹤數據沿襲並在發生節點故障時通過重新計算任何數據節點。

+0

因此,執行程序之間的所有數據傳輸僅使用網絡執行,且沒有分佈式存儲? – Osmin

+0

執行者之間是的 – Holden