0
我想將RDD的某些列寫入文本文件。 目前我正在使用熊貓來做到這一點。Python Spark:將RDD的某些列寫入文本文件
df_2016_pandas = df_2016.select('id', 'source', 'date', 'title', 'abstract', 'content').toPandas()
,然後列轉換爲字符串寫入文本文件
title_string = ''.join(df_2016_pandas.title.tolist())
output_file.write(title_string)
這樣,我寫content
和abstract
同一文本文件(我想要的文本文件由title
,content
和組成來自RDD的)。
由於數據龐大(28M記錄),我認爲使用熊貓效率不高。 有沒有辦法我可以在spark(python)中做到這一點,即將RDD的某些列(元組)寫入文本文件。