我正在使用最新版本的Spark(2.1.1)。我通過spark.read.csv將多個csv文件讀取到dataframe。 使用此數據框處理後,如何將其保存爲輸出帶有特定名稱的csv文件。Pyspark:將df寫入具有特定名稱的文件,劇情df
例如,有100個輸入文件(in1.csv,in2.csv,in3.csv,... in100.csv)。 屬於in1.csv的行應保存爲in1-result.csv。屬於in2.csv的行應保存爲in2-result.csv等。(默認文件名將像part-xxxx-xxxxx這是不可讀的)
我已經看到partitionBy(col),但看起來像它可以只是按列分區。
另一個問題是我想繪製我的數據幀。 Spark沒有內置的圖庫。許多人使用df.toPandas()轉換爲熊貓並繪製它。有沒有更好的解決方案?由於我的數據非常大,並且toPandas()會導致內存錯誤。我正在處理服務器,並希望將圖像保存爲圖像而不是顯示。
的可能的複製[如何保存火花數據幀在磁盤上的CSV?](https://stackoverflow.com/questions/33174443/how-to-save-a-spark-dataframe-as-csv -on-disk) – eliasah
我不問如何將它正常保存到磁盤。我想用特定的名字保存它。防爆。 in1.csv中的行將被寫爲in1-result.csv。 (這個名字不是part-xxxx) – NoobProgrammer
spark使用hadoop,除非你使用MultipleTextOutputFormat和字符串RDD將它保存爲hadoop文件,那麼在火花中沒有開箱即用的解決方案 – eliasah