2016-05-03 70 views
0

嗨,我正在交互使用pyspark。我想我無法正確加載本地文件。pyspark:如何顯示當前目錄?

如何查看當前目錄,以便我可以瀏覽器查看該實際文件?

或者是pyspark的默認目錄?謝謝

回答

2

除非在同一路徑下的所有員工中都有相同的文件,否則無法加載本地文件。例如,如果要讀取spark中的data.csv文件,請將此文件複製到同一路徑下的所有worker(例如/tmp/data.csv)。現在你可以使用sc.textFile(「file:///tmp/data.csv」)來創建RDD。

當前工作目錄是您已啓動pyspark的文件夾。您可以使用ipython啓動pyspark並運行pwd命令來檢查工作目錄。 [在spark-env.sh中設置PYSPARK_DRIVER_PYTHON =/path/to/ipython以使用ipython]