我在Windows 7中的Jupyter筆記本(Python 2.7)上的PySpark中工作。我有一個名爲idSums
的pyspark.rdd.PipelinedRDD
類型的RDD。當試圖執行idSums.saveAsTextFile("Output")
,我收到以下錯誤:(null)PASpark上的saveAsTextFile()中的命令字符串異常入口
Py4JJavaError: An error occurred while calling o834.saveAsTextFile.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 33.0 failed 1 times, most recent failure: Lost task 1.0 in stage 33.0 (TID 131, localhost): java.io.IOException: (null) entry in command string: null chmod 0644 C:\Users\seride\Desktop\Experiments\PySpark\Output\_temporary\0\_temporary\attempt_201611231307_0033_m_000001_131\part-00001
不應該有與RDD對象的任何問題,在我看來,因爲我能夠沒有錯誤執行其他操作,如執行idSums.collect()
會產生正確的輸出。
此外,還創建了Output
目錄(包含所有子目錄),並創建了文件part-00001
,但它是0字節。
此解決方案有效。謝謝!請注意,雖然spark可以在沒有hadoop的情況下運行(正如您所知道的@HapreetVarma),但它可以在減少功能的情況下運行。 –