我正嘗試使用python spark庫在Amazon EMR上讀取文本文件。該文件位於主目錄(/ home/hadoop/wet0),但spark似乎無法找到它。Spark/Hadoop無法在AWS EMR上找到文件
線問題:
lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
錯誤:
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'
文件是否必須在一個特定的目錄?我無法在AWS網站上的任何位置找到有關此信息。
你會打印'hadoop fs -ls/user/hadoop /'的輸出嗎? – eliasah