在Spark的FAQ,我們特別說一個沒有使用HDFS:使用Apache的Spark與HDFS與其他分佈式存儲
我需要Hadoop的運行火花?
不,但是如果您在羣集上運行,則需要某種形式的共享文件系統(例如,在每個節點上的相同路徑上安裝NFS)。如果你有這種類型的文件系統,你可以在獨立模式下部署Spark。
那麼,如果我不打算使用Hadoop MapReduce,那麼使用Apache Spark與HDFS與其他分佈式文件系統(如NFS)有何優缺點?如果我使用NFS而不是HDFS作爲節點存儲(對於檢查點,隨機溢出等),我會錯過一個重要功能嗎?
我刪除了我早先的答案。這個SE問題可能對HDFS與其他替代方案的比較有用:http://stackoverflow.com/questions/32669187/is-hdfs-necessary-for-spark-workloads/34789554#34789554 –