Python Spark：將RDD的某些列寫入文本文件

我想將RDD的某些列寫入文本文件。目前我正在使用熊貓來做到這一點。Python Spark：將RDD的某些列寫入文本文件

df_2016_pandas = df_2016.select('id', 'source', 'date', 'title', 'abstract', 'content').toPandas()

，然後列轉換爲字符串寫入文本文件

title_string = ''.join(df_2016_pandas.title.tolist())

output_file.write(title_string)

這樣，我寫content和abstract同一文本文件（我想要的文本文件由title,content和組成來自RDD的）。

由於數據龐大（28M記錄），我認爲使用熊貓效率不高。有沒有辦法我可以在spark（python）中做到這一點，即將RDD的某些列（元組）寫入文本文件。

2017-06-22 kartik

問題太清楚了，但是從解釋看起來您只需要選擇的列在輸出文件中。 PySpark和Pandas集成並不可取。您可以使用下面的方式直接保存df。這會將數據存儲在分區中，然後連接文件並從HDFS下載。

#Tested on pyspark 1.6 
df_2016.select('title', 'abstract', 'content').write.mode("overwrite").format("parquet").save("name_file")

2017-06-23 08:51:23

回答