0
我在hdfs中有幾個文件,我想在Spark中使用它們。我能看到我的文件時,我給下面的命令:從HDFS使用文件到Apache Spark中
bin/hadoop dfs -ls /input
我應該如何給這個文件中火花的路徑創建一個RDD:
val input=sc.textFile("???")
我在hdfs中有幾個文件,我想在Spark中使用它們。我能看到我的文件時,我給下面的命令:從HDFS使用文件到Apache Spark中
bin/hadoop dfs -ls /input
我應該如何給這個文件中火花的路徑創建一個RDD:
val input=sc.textFile("???")
如果你的星火安裝正確配置,那麼你的正常HDFS路徑應該只是工作在星火逐字不變,以及:
val input = sc.textFile("/input")
如果找不到工作,然後你可能需要確保你的星火配置爲properly picking up your Hadoop conf dir。
您也可能想嘗試直接從您的星火代碼檢查你的文件列表,以確保配置越來越正確導入:
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._
val path = new Path("/input")
path.getFileSystem(new Configuration()).listStatus(path)
我得到的錯誤輸入路徑不存在。我無法弄清楚如何提供在hdfs中創建的輸入文件的路徑。 –