2016-06-29 70 views
-2

我最近在Windows上開始使用spark,我成功地創建了一個應用程序並在本地提交,現在我想使用帶有spark的HDFS,但是在模式下獨立不是MESOS,也不是YARN。 第一個問題:我不知道如何做到這一點,你能幫我從這開始提供清晰的步驟或視頻,也許(包括所有必需的步驟......安裝(如果需要的話)...配置.. ..) 其他問題:是否有可能在Windows上使用hdfs?如何使用haddop的hdfs與火花

說明: - 我對windows(如果可能的話)這樣做感興趣,那麼在Ubuntu上也是如此。 -i需要所有必需的信息啓動

回答

0

spark已經支持hadoop文件系統。 如果你有機會獲得任何Hadoop集羣,那麼你可以簡單地開始使用

val textFile = sc.textFile("hdfs://namenode:port/directory") 

NameNode和端口信息從火花訪問HDFS文件可以在$ HADOOP_HOME核心的site.xml文件/ etc /目錄下的Hadoop獲得 如果您無法訪問任何hadoop羣集,則可以設置僞節點或單節點。請參考設置hadoop集羣的鏈接https://hadoop.apache.org/docs/r1.2.1/single_node_setup.html

不推薦在Windows上使用Hdfs,因爲它不是很好的支持。如果你在linux上設置它會更好。

謝謝

+0

感謝您的幫助 – hammad

+0

是否可以使用cloudera vm? – hammad

+0

它應該是因爲它只需要你的hdfs namenode和端口信息來訪問hdfs文件系統。 – nat