在大熊貓可以使用如何在Pyspark中創建數據框的列名稱而無需創建新的數據框?
new_column_name_list =['Pre_'+x for x in df.columns]
df.columns = new_column_name_list
我們可以做Pyspark上述相同的步驟「就地」方式重命名一氣呵成的所有列,而不必終於創造新的數據幀?這是低效的,因爲我們將有2個數據幀具有相同的數據,但列名不同導致內存使用不良。
下面的鏈接回答這個問題,但它不是原地。
How to change dataframe column names in pyspark? 編輯 我的問題是從上面的鏈接問題明顯不同
請再次閱讀我的問題。我已經清楚地提到了這個問題與我所問的不同。 –
鏈接問題中的答案似乎回答您的問題,例如'data = data.select(col(「Name」).alias(「name」),col(「askdaosdka」).alias(「age」))' – Yaron
不,因爲創建了新的數據框 –