pyspark RDD到DataFrame

我有一個數據幀和所用下面的命令組它由「用戶ID」

def test_groupby(df): 
    return list(df) 

high_volumn = self.df.filter(self.df.outmoney >= 1000).rdd.groupBy(
        lambda row: row.userid).mapValues(test_groupby)

它給出了一個RDD，其在下面的結構：

(326033430, [Row(userid=326033430, poiid=u'114233866', _mt_datetime=u'2017-06-01 14:54:48', outmoney=1127.0, partner=2, paytype=u'157', locationcity=u'\u6f4d\u574a', locationprovince=u'\u5c71\u4e1c\u7701', location=None, dt=u'20170601')])

326033430是大基團。

我的問題是如何將此RDD轉換回DataFrame結構？如果我不能這樣做，我如何才能從Row項中獲取值？

謝謝。

來源

2017-06-27 Ippon

爲什麼你在groupby之前轉換爲rdd？你可以在不轉換爲rdd的情況下做到這一點，你將獲得一個新的數據框。 –

你應該只

from pyspark.sql.functions import * 
high_volumn = self.df\ 
      .filter(self.df.outmoney >= 1000)\ 
      .groupBy('userid').agg(collect_list('col'))

和.agg方法傳遞你想與數據的其餘部分做。

請點擊此鏈接：http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.agg

來源

2017-06-27 12:44:11

pyspark RDD到DataFrame

回答

相關問題