2017-07-30 311 views
-2

我有一個Pyspark數據框(原始數據幀),其具有如下數據(所有列數據類型):填充在Pyspark數據幀

id   Value 
    1    103 
    2    1504 
    3    1 

我需要建立一個新的修改數據幀padding in value column,這樣該列的長度應該是4個字符。如果長度小於4個字符,則在數據中添加0,如下所示:

id    Value 
    1    0103 
    2    1504 
    3    0001 

有人可以幫我嗎?我怎樣才能實現它使用Pyspark數據框?任何幫助將不勝感激。

回答

4

可以使用LPAD從功能模塊,

from pyspark.sql.functions import lpad 
>>> df.select('id',lpad(df['value'],4,'0').alias('value')).show() 
+---+-----+ 
| id|value| 
+---+-----+ 
| 1| 0103| 
| 2| 1504| 
| 3| 0001| 
+---+-----+