1
我運行在具有幾百萬的記錄的數據集groupBy()
並要保存生成的輸出(pyspark GroupedData
對象),這樣我可以在以後反序列化,並從該點恢復(最重要的是爲運行彙總需要)。如何序列化pyspark GroupedData對象?
df.groupBy("geo_city")
<pyspark.sql.group.GroupedData at 0x10503c5d0>
我想避免GroupedData對象轉換爲DataFrames或RDDS以便將其保存到文本文件或鑲木/阿夫羅格式(如轉換操作是昂貴的)。有沒有其他有效的方法將GroupedData
對象存儲爲某種二進制格式以便更快地讀取/寫入?可能在Spark中有一些相當於泡菜?