2017-06-22 65 views
0

我想將RDD的某些列寫入文本文件。 目前我正在使用熊貓來做到這一點。Python Spark:將RDD的某些列寫入文本文件

df_2016_pandas = df_2016.select('id', 'source', 'date', 'title', 'abstract', 'content').toPandas()

,然後列轉換爲字符串寫入文本文件

title_string = ''.join(df_2016_pandas.title.tolist())

output_file.write(title_string)

這樣,我寫contentabstract同一文本文件(我想要的文本文件由title,content和組成來自RDD的)。

由於數據龐大(28M記錄),我認爲使用熊貓效率不高。 有沒有辦法我可以在spark(python)中做到這一點,即將RDD的某些列(元組)寫入文本文件。

回答

0

問題太清楚了,但是從解釋看起來您只需要選擇的列在輸出文件中。 PySpark和Pandas集成並不可取。您可以使用下面的方式直接保存df。這會將數據存儲在分區中,然後連接文件並從HDFS下載。

#Tested on pyspark 1.6 
df_2016.select('title', 'abstract', 'content').write.mode("overwrite").format("parquet").save("name_file") 
相關問題